-1

相関を使用して機械学習(ML)モデルを訓練するためのフィーチャー選択を行っています。すべての機能を備えた各モデル(SVM、NN、RF)を訓練し、平均精度スコア値を得るために10倍交差検証を行った。 次に、相関係数がゼロであるフィーチャ(フィーチャとクラスの間に関係がないことを意味する)を削除し、すべてのフィーチャで各モデル(SVM、NN、RF)をトレーニングし、平均精度を得るために10倍のクロスバリデーションを行いましたスコア値。相関を使用したフィーチャー選択

私の目的は、上記の2つのシナリオで得られる精度スコアに基づいて機能の選択を行うことです。しかし、これが機能の選択に適しているかどうかはわかりません。

また、グリッド検索を行い、最良のモデルパラメータを特定したいと考えています。私はScikitのAPIを学ぶGridSearchCVと混同しています。クロスバリデーション(デフォルトは3回)を行っているので、上記の2つのシナリオでグリッド検索を行って得られたbest_score_値を使用して、モデルトレーニングの良い機能は何かを判断できますか?

この混乱についてアドバイスをしてください。ページとして予め

答えて

0

おかげthis thesis 51はそれと相関またはクラスの 予測された場合に機能が有用であり、換言すれば、

言います。さもなければそれは無関係です。

このレポートでは、ターゲットと相関のない機能を削除するだけでなく、相互に関連性の高い機能についても注意する必要があります。また、thisを参照してください。

つまり、フィーチャとクラス(ターゲット)との相関を調べて、ほとんど相関がないフィーチャを削除することは良いことです。

基本的に私の目的は、正確さに基づいて機能の選択を行うことです 上記の2つのシナリオの得点です。しかし、私はこれが であるかどうかは、機能選択のための良いアプローチではないと思います。

はい、あなたは完全に異なる機能セットで実験を実行して、最高を行う機能を選択する試験精度で見ることができます。目に見えないデータのテスト精度、つまりモデルのパフォーマンスだけを見ておくことが非常に重要です。

また、グリッド検索を実行して、最適なモデルパラメータを特定したいと考えています。

のパラメータを最適に見つけるためにグリッドが検索されます。モデルパラメータはトレーニング中に学習されます。

それはまた、クロスバリデーション(デフォルトは3倍に)行うので、私は best_score_値がモデルのトレーニングのための優れた機能が何であるかを決定するために2つのシナリオ 上記のグリッドサーチを行って得た使用することができますか?

ハイパーパラメータのセットが固定されている場合、最良のスコア値はフィーチャセットの影響を受けるため、フィーチャの有効性を比較するために使用できます。

+0

詳細な説明をいただきありがとうございます – Ann

関連する問題