私は、主観的または客観的なつぶやきをフィルタリングするための信頼性の高い正確な方法が必要です。つまり、トレーニングセットを使用してWekaのようなフィルタを構築する必要があります。Twitterの主観的なトレーニングのセット
Twitterメッセージや転送可能なその他のドメインの主観的/客観的分類子として使用できるトレーニングセットはありますか?
私は、主観的または客観的なつぶやきをフィルタリングするための信頼性の高い正確な方法が必要です。つまり、トレーニングセットを使用してWekaのようなフィルタを構築する必要があります。Twitterの主観的なトレーニングのセット
Twitterメッセージや転送可能なその他のドメインの主観的/客観的分類子として使用できるトレーニングセットはありますか?
研究目的や非営利目的で、SentiWordNetは必要なものを正確に提供します。商用ライセンスも利用できます。
SentiWordNet:http://sentiwordnet.isti.cnr.it/
サンプルJaveコード:http://sentiwordnet.isti.cnr.it/code/SWN3.java
関連論文:私はしようとするだろうhttp://nmis.isti.cnr.it/sebastiani/Publications/LREC10.pdf
他のアプローチ:
例
Tweet 1:@xyzあなたは暗い騎士を見なければなりません。そのawesme。
1)まず、意味の辞書を検索します。
"u"と "awesme"は何も返しません。
2)次に、拡張 で知られている略語/速記と代替試合(一部のリソースに反する:
ツイート1:オリジナルのつぶやきは、次のようになります今netlingo http://www.netlingo.com/acronyms.phpまたはsmsdictionary http://www.smsdictionary.co.uk/abbreviations)
: @xyz あなたはが暗い騎士を見るはずです。そのawesme。
3)次に、(常に理想的な、小さな単語を起こしやすいエラーではない)ベストマッチでスペルチェッカーと代替に
関連リンク残りの単語を養う:今すぐ元のつぶやきを Looking for Java spell checker library
をします次のようになります。
Tweet 1:@xyzダークナイトが表示されます。その素晴らしい。
4)分割及びSWN3にツイートをフィードは、結果
を集約このアプローチの問題点は、
a)の否定がSWN3外取り扱われるべきであるということです。
b)顔文字や誇張された句読点の情報は失われるか、別々に処理する必要があります。
ありがとうございます。良いと思われるSentiWordNetを見てきました。しかし、ここでの問題は、Twitterのメッセージは、綴りが間違っている、省略されている傾向があるため、私はそれが最良のアプローチではないかもしれないと考えていたことです。 SWN3で語義曖昧性解消を実装するJavaコードについて知っていますか? – NightWolf
申し訳ありませんが、私はPythonの人です。:) http://www.hpl.hp.com/techreports/2011/HPL-2011-89.pdf http:// www。 stanford.edu/~richab86/CS224N.Go.Bhayani.pdf – Neodawn
CMUにはセンチメントのトレーニングデータがどこかにあります。私はリンクを覚えていない。CMUは、Twitterや感情分析に多くのことを行っている:
を、私はTwitterのための英語対ではない英語の単純ベイズ分類器を書き、〜例開発/テストセットを作りましたそれは98%正確でした。 SentiWordNetのようなパッケージが、あなたに頭の中でスタートを与えるかもしれないが、問題を理解しようとしているのであれば、それはかなり良いと思う。
問題は、つぶやきを主観的または客観的にするものを定義しています。機械学習はアルゴリズムやデータの品質についての知識が少ないことを理解することが重要です。
あなたは75%の精度はあなたが必要としていることを言います....リコールはどうですか?適切なトレーニングデータを提供すれば、それを得ることができるかもしれませんが、リコール率は低く抑えられます。
LingPipeのDynamicLMClassifier
はかなりうまく動作します。
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
目的さえずりの客観的な定義のようなものはありませんので、あなたは、既存のトレーニングセットを見つけるつもりはありません。 – bmargulies
twitterに投稿された主観的、客観的なメッセージがあります...トレーニングセットがすべてのメッセージに完全ではないかもしれませんが、75%以上の正確なものは十分です...私はここで目標を理解しているとは思いません....肯定的、否定的、中立なつぶやきがあるかもしれません。どのツイートが肯定的/否定的でニュートラルであるかを判断したい。 – NightWolf
ちょうど短いコメント:objective!=中立。良い例は:デルフィンは魚です。それはデルフィンについての中立的で主観的な意見です。 – Skarab