3

私はテキストの気分を予測するシステムを開発しようとしています(簡単な感情分析)。apache mahoutを使ったセンチメント解析

私はまた、真剣に巨大なデータであり、システムはリアルタイムでスケーラブルでなければならないので、apache mahoutも好きです。親切にも、apache mahoutが提供するアルゴリズムをお勧めします。これは、センチメント分析に適しています。

+0

私はあなたがあなたのスケールのようなものは何ですか?何をしようとしましたか、何がうまくいかなかったか –

+0

こんにちは、入力はテキストファイルの文字ストリームです。出力は、ライターの気分を反映する極性(負、正、中立)です。私はちょうどこれから始まり、適切な分類子を選ぶ際に提案が必要です。 – Greenhorn

答えて

3

訓練データをラベルした場合は、Naive Bayes classifierを試してみてください。これは、最も単純な教師あり学習アルゴリズムの1つです(Mahoutがサポートしています)。それが何らかの理由で十分でない場合は、ロジスティック回帰などのより複雑なアルゴリズムを試すことができます。

ラベル付きデータがない場合は、運が悪いです - これが機能するにはいくつか必要があります(例:Amazon's Mechanical Turkであなたのデータにラベルを付ける人を雇う)

ちなみに、私たちは何のデータサイズですか? (それが数百ギガバイトまでならば、このタイプのモデルを訓練するためにハープ/マホートは必要ありません - すでにハロー・トップに座っていない限り)

+0

フリーランサーにラベルをアウトソーシングしました。トレーニングデータは約500Mbで、システムはハープループクラスタに配置されます。ご回答いただきありがとうございます。 – Greenhorn

関連する問題