FacebokとTwitterから投稿とツイートをデータベースに抽出して分析する必要があります。私の問題は、システムが英語の文章(フレーズ)のみを処理できることです。どうすれば私のデータベースから英語以外の投稿やツイートを削除することができますか?英語の文章のみを抽出する
NLPのアルゴリズムがあれば分かりますが、教えてください。
おかげで、通常は好ましい可能自動言語識別回避に関して
FacebokとTwitterから投稿とツイートをデータベースに抽出して分析する必要があります。私の問題は、システムが英語の文章(フレーズ)のみを処理できることです。どうすれば私のデータベースから英語以外の投稿やツイートを削除することができますか?英語の文章のみを抽出する
NLPのアルゴリズムがあれば分かりますが、教えてください。
おかげで、通常は好ましい可能自動言語識別回避に関して
私はこのプロジェクトを見つけましたが、ソースコードは非常に明確です。私はテストして、それはかなりうまく動作します。 http://code.google.com/p/guess-language/
- 例えば、ツイートは役に立つかもしれないフィールドiso_language_code
を含む返さhttps://dev.twitter.com/docs/api/1/get/searchショー。
それが十分ではない場合、あなたが使っているものは何でも言語で既存の言語識別ライブラリのいずれか
あなたの答えをありがとう。私はTwitterからこのAPIを知っている、問題は私の記事はTwitterから来るだけでなく、Facebookや検索エンジンから来ることができるということです... – ofecrpnr
英語の辞書を入手して、テキスト内の単語の大部分がその中にあるかどうかを確認してください。オンラインテキストを見ているので、共通のスラングと略語を必ず含めてください。
辞書をtrieデータ構造体に格納すると、これは非常に速く実行できます。
私はファンシーNLPは、このタスクのために少し過剰ですと思う。言語が英語でない場合は、その言語を特定する必要はありません。そのため、英語の簡単な特徴を使ってテキストをテストするだけです。
これは、他の言語の英語の言葉が流行しているためにうまくいかそうです。英語*のストップワード*を探す方がよりスマートなアイデアかもしれません。 –
私は他の言語で有効な英語の単語がたくさんあると確信していますが、テキストの中の単語のほとんどがそうであると信じています。私はあなたが99.99%の症例のために働く閾値を見つけると確信しています。 – tskuzzy
私はそれがあなたの思うよりもはるかに難しいと確信しています。私は、言語推測に関する文献や[Twitterの言語推測] /staff.science.uva.nl/~tsagias/?p=241)。あなたが示唆しているのは、90年代初めにつぶやきよりはるかに大きくてきれいな文書のために試みられた方法で、それでもうまくいきませんでした。 –
私はツイートの言語検出に標準ライブラリを使用しようとしました。名前、笑いなどには多くの非標準文字が存在するため、多くの偽陰性が発生します。この問題は、信号対雑音比が低い小規模な投稿ではさらに深刻です。
主な問題はアルゴリズムではなく、古いデータソースです。 Twitterから新しいものをクロール/ストリーミングすることをお勧めします。 Twitterの言語フラグは地理情報に基づいているため、すべての場合に機能しません。 (中国人はまだ米国で中国語の投稿をすることができます)。私は多くの英語を話す人のホワイトリストを使用し、その投稿を集めることを提案します。
私は正しい思い出している場合、私は95 +%正確だった少しツイート言語分類(英語かどうか)を書いた。私はそれがちょうどナイーブbayes + 1000トレーニングインスタンスだったと思う。それを位置情報と組み合わせれば、さらに良いことができます。
LSI(潜在セマンティックインデックス)& LSA(潜在意味解析)のSVD(単一値分解)を試しましたか?参照:http://alias-i.com/lingpipe/demos/tutorial/svd/read-me.html
これは言語識別問題のように聞こえます。http://en.wikipedia.org/wiki/Language_identification –
[非常に短いテキストの言語検出]の可能な複製(http://stackoverflow.com/questions/) 55379974 /言語検出のための非常に短いテキスト)(私の答えは特にTwitterをカバーしています) –