2017-10-23 16 views
2

NLPをとても使いやすくするすばらしいspaCy(https://github.com/explosion/spaCy)を発見しました。私は自分の研究のためにいくつかのNLP機能を抽出する必要があり、このツールを使用することで確実にプロセスが簡略化されます。しかし、私はTwitterの投稿から抽出された非公式のテキストを扱います。spaCyを使用してTwitterデータを処理できますか?

TwitterのNLPは、データの非公式でノイズの多い性質のため、異なるモデルを必要としているようです。 http://www.cs.cmu.edu/~ark/TweetNLPhttps://github.com/aritter/twitter_nlpのようなツールが研究者によってリリースされました。しかしながら、それらはあまり使用可能でもスケーラブルでもありません。

spaCyがTwitterデータのNLPタスクに適しているかどうかは知りませんか?

ドキュメント内に情報が見つかりません。

事前に感謝します。

デビッド

答えて

0

この質問は簡単には答えられません。しかし、ここにいくつかのアイデアがあります。その多くは、Twitterデータのテキストや自然言語処理に適用されます。

トークン化:

私の知る限りでは、それはツイートからテキストのために設計されてトークナイザ何があらかじめ組み込まれていません。ハッシュタグと@ -mentionsは、hereメソッドで対応できます。ストップワードリストの変更についても考えなければなりません。あなたはNLTKのtweet tokenizerからいくつかのアイデアを得ることができます。

品詞タグ付け:

さえずり、適切なトークン化スキームを考えると、POSタグ付け精度は、多くの場合、どのような人々である(少なくとも形容詞のために、スペイシーの英語のデフォルトモデルのためだけでOKです単純な感情分析をしたい)。さまざまなPOSのタグ付け精度に対する感度は、達成しようとしているものによって異なります。

名前付きエンティティの認識は:

ここで再び、それはすべてあなたが何をしようとしてに依存します。アップル製品のサンプル分析では、真陽性率はかなり高いですが、偽陽性率はかなり高いです。

関連する問題