2017-07-04 2 views
0

私はいくつかのデータを持つCSVファイルを持っており、このデータに基づいて合成データを生成したいと思います。言い換えれば、統計的なブートストラップのように、古いデータと同じ分布で新しいデータを生成したいと思います。Pythonで合成データを生成するには?

私はこれをPythonでどうやって行うことができますか?

私はRでいくつかのライブラリを見つけましたが、Pythonでは何も見つかりませんでした。

+1

私はあなた自身でスクリプトを行うべきだと思いますが、それは非常に簡単です。次のような例があります:http://www.python-course.eu/synthetical_test_data_with_python.php – Dadep

+0

正確に何をしようとしていますか?あなたのケースでは再サンプリングによるブートストラップは適切ではありませんか? – rafaelvalle

答えて

1

コメントに記載されているように、おそらく自分のスクリプトを作成する方がよいでしょう。 CSVファイルにはimport pandas、ランダムサンプリングにはimport numpyを使用できます。それは、元のデータフレームと同じ分布でサンプルを生成しますので、デフォルトでは、交換と

import pandas as pd 
import numpy as np 

df = pd.read_csv('CSV_file.csv') 

size_of_sample = 10 

rows = np.random.choice(df.index.values, size_of_sample) 

df_sample = df.loc[rows] 

numpyのchoice機能サンプル:

は、私は次のようにしたいコードであると信じています。

関連する問題