0

私は1つのクラスについて45の観測値を有し、別のクラスについては55の観測値を有するデータセットを有する。さらに、私はこの手順の結果がやや奇妙であったが、Feature Selectionフィルタを使用して以前に選択された4つの異なる機能を使用しています。分類アルゴリズムに桁あふれがないようにクロス検証は十分ですか?

一方、私はクロスバリデーションを使用して、 %〜85%)を使用しています。これは、MatlabでclassificationLearnerを使用しているためです。これはオーバーフィットがないことを保証しますか?それともまだチャンスがあるかもしれませんか?オーバーフィットがないことをどうすれば保証できますか?

答えて

0

これは実際に使用可能なトレーニングデータセットに依存します。利用可能なデータが十分に代表的でない場合は、トレーニングと検証に使用する方法に関係なく、優れたモデルは得られません。

これを念頭に置いて、クロスバリデーションよりもデータが代表である(すべてのデータのグローバルセットと同じ "重要"属性のサブセットに同じ値の分布を持つ)ことが確かであれば、 。

+0

ご協力いただきありがとうございます。 –

関連する問題