kNNの助けを借りて推奨エンジンを開発しています。しかし、データはまばらで、約1500のサンプルと約200のフィーチャを持っています。私は1または0の値を持つ序数目標を持っています。kNNの機能の選択と重要な機能
どのような方法で機能を選択するのですか?私は、機能選択のためにランダムフォレストを選択した場合、選択された機能は、kNNが重要な機能を担っていると思われるものとは異なる場合があると想定しています。
また、サンプル数が少ないフィーチャの数に制限はありますか?
kNNの助けを借りて推奨エンジンを開発しています。しかし、データはまばらで、約1500のサンプルと約200のフィーチャを持っています。私は1または0の値を持つ序数目標を持っています。kNNの機能の選択と重要な機能
どのような方法で機能を選択するのですか?私は、機能選択のためにランダムフォレストを選択した場合、選択された機能は、kNNが重要な機能を担っていると思われるものとは異なる場合があると想定しています。
また、サンプル数が少ないフィーチャの数に制限はありますか?
機能の選択手法では、無関係な機能を除外したり、不要な機能を除外したりする必要があります。 1つの実証済みの手法は、データのサイズを有意義に縮小し、インフォメーションゲインを使用してターゲット変数と最も関連性の高い上位のフィーチャを得るために、Supervized discretization based on entropy(より一般的な説明はhereです)を使用することです。あなたが試すことができる少なくとも5つの様々な方法があります、それはまたあなたのアプリを実装するために使用しているmlライブラリ/フレームワークに依存します。
Reliefアルゴリズムを試してみましょう。なぜなら、そのコア部分は最近傍探索であるからです。
データの疎さによっては、主成分が適切かもしれません。データが非常に疎である場合、関連ルールが適切かもしれません。 –
データの希薄さを判断する方法は?行列はありますか? – Gagan