私は、機能選択を使用して、文書内でバイナリ分類タスクに最も有用な用語を見つけたいと考えています。バイナリ文書分類で最も差別的な用語をどのように見つけますか?
私の周り見てきた:
これは、相互情報量とカイ二乗検定メトリックが言及
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html
MATLABは、同様に多くの機能を持っていますの
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
Feature Selection in MATLAB
をrelieffとrankfeaturesは有望に見えます。
データが正規分布に従っているかどうかわかりません。どのようなテクニックが最高のパフォーマンスを発揮するか?新しい方法がありますか?焦点は分類精度を高めることです。
ありがとうございました!