2016-11-07 34 views
-1

つぶやきの感情分析には、どの機能抽出(Countvectorizer、TfIdf)が最適でしょうか? 誰かがそれぞれの違いを説明してください。異なる分類子に最も関連性があります。scikit-learnを使った感情分析のための特徴抽出

私はあなたが評判分析のためのトップのK最も有益な機能を選択するためのSelectKBestメソッドを使用して試すことができます3異なるclassifiers-ナイーブベイズ、SVMとMAXENT

答えて

1

を使用することを計画しています。これはPythonのscikit-learnライブラリにあります。あなたが特徴抽出のための「chi2」と同様に「F-classifのスコアの両方を使用して試すことができますドキュメントを読んでたら

from sklearn.feature_selection import SelectKBest, chi2, f_classif 

:あなたのようにそれをインポートすることができ http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html

。 SelectKBestは、出力変数との関連性が最も強い機能を選択するため、機能を選択するのに適した方法です。あなたは実験のためにkの値を変え続けることができ、kのどの値があなたに最良の結果をもたらすかを見ることができます。

+0

いいえ、私は実際に特徴抽出方法を探していましたが、機能選択の方法ではありませんでした。 – ak9

+0

TfidfとCount Vectorizerはどちらもデータに応じて異なる結果を示します。両方を試してみると、より良いパフォーマンスを得ることができます。 – PJay

関連する問題