私は書かれたテキストに関する分類作業に取り組んでいます。分類結果を改善するために、ある種の「機能選択」手順を実行することがどれほど重要かと思います。Pythonマシンの学習、機能の選択
件名に関連した多数の機能(約40)を使用していますが、すべての機能が本当に関連しているかどうか、またどの組み合わせであるかはわかりません。私はSVM(scikits)とLDAC(mlpy)を使い果たしています。
関連する機能と関連性のない機能が混在している場合は、分類結果が悪くなると思われます。分類の前に「機能選択手順」を実行する必要がありますか?
Scikitsはan RFE procedure that is tree-based that is able to rank the featuresです。最も重要な機能を選択し、SVM(非線形)またはLDACで実際の分類を実行するために、ツリーベースのRFEでフィーチャをランク付けすることは意味がありますか?または、同じ分類子を使用して複数のラッパーメソッドを実装する必要があります(異なるグループの機能で分類しようとすると非常に時間がかかるでしょう)。
進化的アルゴリズムを使用して選択して結果を改善してください。 –
さて、あなたは確かに機能の選択を試みることができます。これはその使用目的です。あなたの問題の詳細がなければ、これは非常に答えにくいです。さまざまなフィーチャセットを手動で試すこともできます。 –