spaCyを使用してTwitterデータを処理できますか？

NLPをとても使いやすくするすばらしいspaCy（https://github.com/explosion/spaCy）を発見しました。私は自分の研究のためにいくつかのNLP機能を抽出する必要があり、このツールを使用することで確実にプロセスが簡略化されます。しかし、私はTwitterの投稿から抽出された非公式のテキストを扱います。spaCyを使用してTwitterデータを処理できますか？

TwitterのNLPは、データの非公式でノイズの多い性質のため、異なるモデルを必要としているようです。 http://www.cs.cmu.edu/~ark/TweetNLPとhttps://github.com/aritter/twitter_nlpのようなツールが研究者によってリリースされました。しかしながら、それらはあまり使用可能でもスケーラブルでもありません。

spaCyがTwitterデータのNLPタスクに適しているかどうかは知りませんか？

ドキュメント内に情報が見つかりません。

事前に感謝します。

デビッド

出典

2017-10-23 Salias

この質問は簡単には答えられません。しかし、ここにいくつかのアイデアがあります。その多くは、Twitterデータのテキストや自然言語処理に適用されます。

トークン化：

私の知る限りでは、それはツイートからテキストのために設計されてトークナイザ何があらかじめ組み込まれていません。ハッシュタグと@ -mentionsは、hereメソッドで対応できます。ストップワードリストの変更についても考えなければなりません。あなたはNLTKのtweet tokenizerからいくつかのアイデアを得ることができます。

品詞タグ付け：

さえずり、適切なトークン化スキームを考えると、POSタグ付け精度は、多くの場合、どのような人々である（少なくとも形容詞のために、スペイシーの英語のデフォルトモデルのためだけでOKです単純な感情分析をしたい）。さまざまなPOSのタグ付け精度に対する感度は、達成しようとしているものによって異なります。

名前付きエンティティの認識は：

ここで再び、それはすべてあなたが何をしようとしてに依存します。アップル製品のサンプル分析では、真陽性率はかなり高いですが、偽陽性率はかなり高いです。

出典

2017-11-17 18:18:01 WhyFjord

spaCyを使用してTwitterデータを処理できますか？

答えて

関連する問題