2017-03-24 6 views
0

私はPythonとNLTkを使い慣れていません。私は、NLTK(NaivesBayesCalssifier)での調査の感情分析のために作成されたモデルを持っています。精度を向上させるために、モデルに正と負のステートメントのリストを含む辞書を追加したかったのです。 NLTKにモジュールがありますか?モデルを改善できる追加機能がありますか?NLTKでのセンチメント分析の辞書

+0

(1)http://www.nltk.org/py-modindex.htmlを参照して、NLTKにあるモジュールを確認してください。 (2)助けになる追加の機能があるかもしれませんが、あなたが現在使っているものを指定していないので、伝えるのは難しいです。とにかく、フィーチャエンジニアリングはプログラミングに関する質問ではなく、研究トピックの多く(それはSOに属しません)です。 – lenz

+0

これまでのセンチメント分析モデルは何を使用していますか? – alexis

答えて

1

あなたは正と負の言葉のコーパスを提供する公的な感想の辞書を見ることができます。

そのうちの一つは、あなたがあなたの現在のモデルについての詳細を指定していない、ので、私はあなたが非常に基本的な単純ベイズ分類器を使用していると仮定していhttps://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html

で見つけることができます。ユニグラム(単語)を使用してテキストをベクトル化する場合、特徴ベクトルを生成するためにバイグラムやトリグラムを使用することを検討できます。これは基本的に、単語の文脈情報をある程度まで使用できるようにします。

テキストを変換するためにTfidfなどの単語モデルのバッグを使用している場合は、その代わりに単語埋め込みを使用することを検討できます。単語の袋は単語の文脈情報を考慮しないが、単語埋め込みはそれを利用することができる。

単語をベクトルに変換するディープ学習を使用するgensimのようなものを使用できます。次をご覧ください:https://radimrehurek.com/gensim/models/word2vec.html

さらに、linearSVCクラシファイアまたはロジスティック回帰クラシファイアを使用して、常に最高の精度を与えるものを選択することができます。

関連する問題