2017-07-29 9 views
1

GridsearhcvはStratifiedKFoldまたはKFoldを使用します。だから私の質問は、グリッド検索を使用する前に私のデータを訓練とテストに分割し、次にテストデータのためだけにフィッティングする必要があるということです。私はcvメソッドがすでにデータを分割しているので必要かどうかはわかりませんが、事前にデータを分割した例を見てきました。GridSearchCVを使用しているときにデータを分割する必要はありますか?

ありがとうございます。

答えて

1

GridSearchCVは与えられたデータを取り込み、それを列車とCVに分割し、CVセットを使用して最高の超過パラメータを検索するアルゴリズムを学習します。必要に応じて異なる分割方法を指定することができます(分割の割合など)。

しかし、ハイパーパラメータチューニングを実行すると、データセットに関する情報がアルゴリズムに「リーク」します。

そこで私は次のようなアプローチ取るためにアドバイスします:あなたの元のデータセットを取り、テストセット(たとえば、10%として、いくつかのデータを差し出す)

1)

2)は、残りの上のグリッドサーチを使用します90%。スプリットはここでアルゴリズムによって実行されます。

3)最適なハイパーパラメータを取得したら、#1のテストセットでテストして、新しいデータに期待できるパフォーマンスの最終的な見積もりを取得します。

関連する問題