2016-06-14 13 views
2

gridsearchcvで最良のパラメータがcross-validationに基づいて決定されていますが、私が実際にやりたいことはcross validationではなくone held out validation setに基づいて最適なパラメータを決定することです。gridsearchcv sklearnでトレーニングと検証を設定しました

これを行う方法があるかどうかわかりません。私はcross-validation foldsをカスタマイズするところで類似した投稿をいくつか見つけました。しかし、私が実際に必要とするのは、1つのセットでトレーニングを行い、検証セットのパラメータを検証することです。

私のデータセットに関するもう1つの情報は、pandaによって作成されたtext series typeです。

+0

にあなたがgridsearchcvクラスのCVパラメータに探してみました。あなたが望む分割を反復可能にすることができます。トレーニングセットに検証セットを追加し、トレーニングと検証で分割を与えるイテラブルを渡すことができますか? –

答えて

2

私はPredefinedSplit

for i in range(len(doc_train)-1): 
    train_ind[i] = -1 

for i in range(len(doc_val)-1): 
    val_ind[i] = 0 

ps = PredefinedSplit(test_fold=np.concatenate((train_ind,val_ind))) 

を使用して、自分の質問への答えを思いついたのと、その後gridsearchCV引数

grid_search = GridSearchCV(pipeline, parameters, n_jobs=7, verbose=1 , cv=ps) 
関連する問題