バイナリ文書分類で最も差別的な用語をどのように見つけますか？

私は、機能選択を使用して、文書内でバイナリ分類タスクに最も有用な用語を見つけたいと考えています。バイナリ文書分類で最も差別的な用語をどのように見つけますか？

私の周り見てきた：
これは、相互情報量とカイ二乗検定メトリックが言及
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html

MATLABは、同様に多くの機能を持っていますの
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
Feature Selection in MATLAB
をrelieffとrankfeaturesは有望に見えます。

データが正規分布に従っているかどうかわかりません。どのようなテクニックが最高のパフォーマンスを発揮するか？新しい方法がありますか？焦点は分類精度を高めることです。

ありがとうございました！

出典

2011-10-26 Sau

答えはデータの性質に大きく依存するため、いくつかのオプションを試してみることをお勧めします。確認のために保留セットを使用することもできます。最も簡単な方法は、おそらく実験のためにWekaまたはRapidMinerを使用することです。それらによって提供される多彩なオプションから選択すると、おそらく他のいくつかの方法を知ることになります。

私は、相互情報/情報伝達が多種多様な問題に役立つことを発見しました。

出典

2011-11-23 07:14:59 etov

バイナリ文書分類で最も差別的な用語をどのように見つけますか？

答えて

関連する問題