Twitterの主観的なトレーニングのセット

私は、主観的または客観的なつぶやきをフィルタリングするための信頼性の高い正確な方法が必要です。つまり、トレーニングセットを使用してWekaのようなフィルタを構築する必要があります。Twitterの主観的なトレーニングのセット

Twitterメッセージや転送可能なその他のドメインの主観的/客観的分類子として使用できるトレーニングセットはありますか？

2011-08-01 NightWolf

目的さえずりの客観的な定義のようなものはありませんので、あなたは、既存のトレーニングセットを見つけるつもりはありません。 – bmargulies

twitterに投稿された主観的、客観的なメッセージがあります...トレーニングセットがすべてのメッセージに完全ではないかもしれませんが、75％以上の正確なものは十分です...私はここで目標を理解しているとは思いません....肯定的、否定的、中立なつぶやきがあるかもしれません。どのツイートが肯定的/否定的でニュートラルであるかを判断したい。 – NightWolf

ちょうど短いコメント：objective！=中立。良い例は：デルフィンは魚です。それはデルフィンについての中立的で主観的な意見です。 – Skarab

研究目的や非営利目的で、SentiWordNetは必要なものを正確に提供します。商用ライセンスも利用できます。

SentiWordNet：http://sentiwordnet.isti.cnr.it/

サンプルJaveコード：http://sentiwordnet.isti.cnr.it/code/SWN3.java

関連論文：私はしようとするだろうhttp://nmis.isti.cnr.it/sebastiani/Publications/LREC10.pdf

他のアプローチ：

例

Tweet 1：@xyzあなたは暗い騎士を見なければなりません。そのawesme。

1）まず、意味の辞書を検索します。

"u"と "awesme"は何も返しません。

2）次に、拡張で知られている略語/速記と代替試合（一部のリソースに反する：

ツイート1：オリジナルのつぶやきは、次のようになります今netlingo http://www.netlingo.com/acronyms.phpまたはsmsdictionary http://www.smsdictionary.co.uk/abbreviations）

： @xyz あなたはが暗い騎士を見るはずです。そのawesme。

3）次に、（常に理想的な、小さな単語を起こしやすいエラーではない）ベストマッチでスペルチェッカーと代替に

関連リンク残りの単語を養う：今すぐ元のつぶやきを Looking for Java spell checker library

をします次のようになります。

Tweet 1：@xyzダークナイトが表示されます。その素晴らしい。

4）分割及びSWN3にツイートをフィードは、結果

を集約このアプローチの問題点は、

a）の否定がSWN3外取り扱われるべきであるということです。

b）顔文字や誇張された句読点の情報は失われるか、別々に処理する必要があります。

出典

2011-08-02 15:11:58 Neodawn

ありがとうございます。良いと思われるSentiWordNetを見てきました。しかし、ここでの問題は、Twitterのメッセージは、綴りが間違っている、省略されている傾向があるため、私はそれが最良のアプローチではないかもしれないと考えていたことです。 SWN3で語義曖昧性解消を実装するJavaコードについて知っていますか？ – NightWolf

申し訳ありませんが、私はPythonの人です。:) http://www.hpl.hp.com/techreports/2011/HPL-2011-89.pdf http：// www。 stanford.edu/~richab86/CS224N.Go.Bhayani.pdf – Neodawn

CMUにはセンチメントのトレーニングデータがどこかにあります。私はリンクを覚えていない。CMUは、Twitterや感情分析に多くのことを行っている：

を、私はTwitterのための英語対ではない英語の単純ベイズ分類器を書き、〜例開発/テストセットを作りましたそれは98％正確でした。 SentiWordNetのようなパッケージが、あなたに頭の中でスタートを与えるかもしれないが、問題を理解しようとしているのであれば、それはかなり良いと思う。

問題は、つぶやきを主観的または客観的にするものを定義しています。機械学習はアルゴリズムやデータの品質についての知識が少ないことを理解することが重要です。

あなたは75％の精度はあなたが必要としていることを言います....リコールはどうですか？適切なトレーニングデータを提供すれば、それを得ることができるかもしれませんが、リコール率は低く抑えられます。

出典

2011-08-02 18:46:18 nflacco

あなたの英語と英語以外の英語のNaive Bayesクラシファイアを使ってツイッターを楽しんでみましょう。これはGitHubにあるチャンスですか？ – NightWolf

残念ながら、それは2000マイル離れた古いデスクトップボックスにあります！コードは全く複雑ではありませんでしたが、時間がかかったのはすべてのデータにラベルを付けることでした。 – nflacco

LingPipeのDynamicLMClassifierはかなりうまく動作します。

http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html

出典

2011-08-08 17:13:13 y2p

Twitterの主観的なトレーニングのセット

答えて

関連する問題