2011-08-01 9 views
1

私は、主観的または客観的なつぶやきをフィルタリングするための信頼性の高い正確な方法が必要です。つまり、トレーニングセットを使用してWekaのようなフィルタを構築する必要があります。Twitterの主観的なトレーニングのセット

Twitterメッセージや転送可能なその他のドメインの主観的/客観的分類子として使用できるトレーニングセットはありますか?

+0

目的さえずりの客観的な定義のようなものはありませんので、あなたは、既存のトレーニングセットを見つけるつもりはありません。 – bmargulies

+1

twitterに投稿された主観的、客観的なメッセージがあります...トレーニングセットがすべてのメッセージに完全ではないかもしれませんが、75%以上の正確なものは十分です...私はここで目標を理解しているとは思いません....肯定的、否定的、中立なつぶやきがあるかもしれません。どのツイートが肯定的/否定的でニュートラルであるかを判断したい。 – NightWolf

+0

ちょうど短いコメント:objective!=中立。良い例は:デルフィンは魚です。それはデルフィンについての中立的で主観的な意見です。 – Skarab

答えて

2

研究目的や非営利目的で、SentiWordNetは必要なものを正確に提供します。商用ライセンスも利用できます。

SentiWordNet:http://sentiwordnet.isti.cnr.it/

サンプルJaveコード:http://sentiwordnet.isti.cnr.it/code/SWN3.java

関連論文:私はしようとするだろうhttp://nmis.isti.cnr.it/sebastiani/Publications/LREC10.pdf


他のアプローチ:

Tweet 1:@xyzあなたは暗い騎士を見なければなりません。そのawesme。

1)まず、意味の辞書を検索します。

"u"と "awesme"は何も返しません。

2)次に、拡張 で知られている略語/速記と代替試合(一部のリソースに反する:

ツイート1:オリジナルのつぶやきは、次のようになります今netlingo http://www.netlingo.com/acronyms.phpまたはsmsdictionary http://www.smsdictionary.co.uk/abbreviations

: @xyz あなたはが暗い騎士を見るはずです。そのawesme。

3)次に、(常に理想的な、小さな単語を起こしやすいエラーではない)ベストマッチでスペルチェッカーと代替に

関連リンク残りの単語を養う:今すぐ元のつぶやきを Looking for Java spell checker library

をします次のようになります。

Tweet 1:@xyzダークナイトが表示されます。その素晴らしい

4)分割及びSWN3にツイートをフィードは、結果

を集約このアプローチの問題点は、

a)の否定がSWN3外取り扱われるべきであるということです。

b)顔文字や誇張された句読点の情報は失われるか、別々に処理する必要があります。

+0

ありがとうございます。良いと思われるSentiWordNetを見てきました。しかし、ここでの問題は、Twitterのメッセージは、綴りが間違っている、省略されている傾向があるため、私はそれが最良のアプローチではないかもしれないと考えていたことです。 SWN3で語義曖昧性解消を実装するJavaコードについて知っていますか? – NightWolf

+0

申し訳ありませんが、私はPythonの人です。:) http://www.hpl.hp.com/techreports/2011/HPL-2011-89.pdf http:// www。 stanford.edu/~richab86/CS224N.Go.Bhayani.pdf – Neodawn

2

CMUにはセンチメントのトレーニングデータがどこかにあります。私はリンクを覚えていない。CMUは、Twitterや感情分析に多くのことを行っている:

を、私はTwitterのための英語対ではない英語の単純ベイズ分類器を書き、〜例開発/テストセットを作りましたそれは98%正確でした。 SentiWordNetのようなパッケージが、あなたに頭の中でスタートを与えるかもしれないが、問題を理解しようとしているのであれば、それはかなり良いと思う。

問題は、つぶやきを主観的または客観的にするものを定義しています。機械学習はアルゴリズムやデータの品質についての知識が少ないことを理解することが重要です。

あなたは75%の精度はあなたが必要としていることを言います....リコールはどうですか?適切なトレーニングデータを提供すれば、それを得ることができるかもしれませんが、リコール率は低く抑えられます。

+0

あなたの英語と英語以外の英語のNaive Bayesクラシファイアを使ってツイッターを楽しんでみましょう。これはGitHubにあるチャンスですか? – NightWolf

+0

残念ながら、それは2000マイル離れた古いデスクトップボックスにあります!コードは全く複雑ではありませんでしたが、時間がかかったのはすべてのデータにラベルを付けることでした。 – nflacco

関連する問題