2017-05-11 8 views
1
import pandas as pd 

df = pd.read_csv("train.csv") 

sample = df.sample(10) 

sample.to_csv("train_subset.csv") 

与えられたcsvファイル(train.csv)からランダムな10個の行をサンプリングし、新しいcsvファイルtrain_subset.csvとして保存します。 上記のコードはこれを実現します。今は、サンプリングされなかったすべての行をtrain_remaining.csvファイルに保存したいと考えています。パンダデータフレームサンプルの補足

どうすれば実装できますか?サンプリングされた行を見つけるにはどうすればよいですか?

+0

[SciKit Learn train_test_split](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) –

答えて

0

sklearns train_test_splitを使用することをお勧めします。

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

これは、あなたがランダムに選択される行の割合を取ることができるようになります。

+0

これを使用する方法をより明示的に教えてください。私はドキュメンテーションで混乱しています。 @グレッグ – cherrycoke2000

+0

'sklearn.model_selectionインポートtrain_test_splitからPD DF = pd.read_csv( "train.csv") X = DFとしてインポートパンダ[' features_used_to_predict '] のY =のDF [' thing_being_predicted '] X_train、X_test、y_train、y_test = train_test_split(X、y、test_size = 0.33、random_state = 42) ' テスト情報を連結してデータのサブセットを得ることができます。 – Greg

関連する問題