今まで私は1つのデータセット(df.csv)しか持っていませんでした。これまでのところ、通常の回帰モデルでは、検証サイズ20%と.train_test_split
を使用しました。私は3つの別々のデータセットを持っている場合機械学習モデルでtrain.csv、test.csv、ground_truth.csvを使用するにはどうすればよいですか? (クロスバリデーション/ Python)
array = df.values
X = array[:,0:26]
Y = array[:,26]
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation =
cross_validation.train_test_split(X, Y,
test_size=validation_size, random_state=seed)
num_folds = 10
num_instances = len(X_train)
seed = 7
scoring = 'mean_squared_error'
(train.csv /のtest.CSV/ground_truth.csv)、私はそれをどのように対処することができますか?もちろん、最初はtrain.csv、次にtest.csv、最後にground_truthを使用します。しかし、これらの異なるデータセットを私のモデルにどのように実装すればよいですか?
あなたのモデルをトレーニングしている間に列車/テスト/検証の分割をcsvファイルにプッシュする理由がないので、あなたの質問は本当に意味をなさない。 sklearnのドキュメントの例を見直し、回帰の完全な試みを投稿することをお勧めします。 http://scikit-learn.org/stable/modules/cross_validation.html –
ご連絡ありがとうございます。しかし、ちょうど私の問題は、私は1つだけのデータセットを持っているときにクロス検証に対処する方法を知っています。しかし、私の場合、私は3つのデータセットを持っています。障害イベントのないtest_data(このために私は予後を必要とする)および残りのライブが定義されているground_throuth_dataを使用して、 – matthew