私はKaggleのテキスト分類競争のためにsklearnを使ってロジスティック回帰モデルを実装しています。sklearnのクロスバリデーションを使用してもロジスティック回帰過ぎ?
ユニグラムを使用すると、23,617個の機能があります。
mean_test_score
クロスバリデーションの検索(sklearnのGridSearchCV
)は、私がKaggleから得たスコアに似ています。最高のモデルを使用しています。bigramを使用すると1,046,524個の機能があります。
GridSearchCV
は私にunigramと比較してより良いmean_test_score
を与えますが、この新しいモデルを使用して、私はKaggleのはるかに低い得点を得ました。
私はあまりにも多くの機能を持っているので、理由はあまりにもふさわしいかもしれないと思います。私はGridSearchCV
を5倍、または2倍に設定しようとしましたが、スコアはまだ矛盾しています。
実際に、検証段階でも、2番目のモデルがオーバーフィットしていることを実際に示していますか?もしそうなら、sklearnを使ってロジスティックモデルの正則化用語を調整するにはどうすればいいですか?どんな提案も感謝しています!
誰でも、あなたのコメントを追加してください。だから私は将来もっと良い質問をすることができます。 –