2009-07-20 3 views
0

テキスト(特に、Twitterメッセージ)を選んで特定のトピックに関連するかどうかを調べたいと思います。あなたはその道を下ってきましたか?もしそうなら、私はあなたがどのようなアプローチをとるのか聞いてみたいと思います。トピックのテキストを検出していますか?

私の場合は、トピックキーワードを検索するだけで、約7%の時間がかかるテキストが得られます。キーワードには複数の意味があり、そのうちのいくつかはトピックに含まれていません。私の使用のために、自動フィルタリングは完璧である必要はありません。私は、抽出されたメッセージがトピックの80%に関連していれば満足しています。私はまた、話題のメッセージの10-30%を失うことに喜んでいます。

最初のパスを手作業で行うと、特定の英語のフレーズのように、メッセージが良いと思われるいくつかの特徴があります。他の特性は、URL、複数のハッシュタグ、および他のフレーズのような拒絶の可能性が高い。他のものは評価することが難しい。

手作業で一連の正規表現と関連するウェイトを作成し、好きな出力が得られるまで手で調整することができました。それはうまくいくだろう。しかし、私はいくつかの可能なアプローチを挙げることができます、そして、私はStack Overflowリーダーがどんなものに幸運を持っているのか疑問に思っています。

ありがとうございます!

答えて

1

これは完全なフィールドです。自然言語処理文献でいくつかの研究をすることをお勧めします。

これを実行する特別な方法がありますが、これらの方法は非常にエラーを起こしやすくなります。多くの誤検出と偽陰性です。しかし、それは良いスタートかもしれません。

  1. キーワードを使用した場合(それが複数の意味を持っている場合)、あなたが質問にキーワードを中心に単語を使用することにより、キーワードの意味を明確にするために試みることができます。しかし、これを行うには、どの単語が最も頻繁に出現するかを判断できるように、処理されたコーパス(文書群)が必要であり、同じことを意味する可能性があります。

  2. 分析しているテキストと似ていることが判明しているドキュメントとの距離を測定できます。両方のテキストソースから単語数を使用し、用語/文書ベクトルを比較する必要があります。より徹底した治療のためには、 "文書ベクトルモデル"を参照してください。

これはうまくいくプロジェクトですが、単純ではありません。

+0

ありがとう、ライアン。私はこれらを見ていきます。 私はどの道に行くかは、事前に分類された多数の例が役立つように思えます。だから私はまずMechanical Turkの仕事をまとめるつもりです。 有望に思える選択肢1については、正しい方向に私を導くリンクやgoogleフレーズがありますか? 「ドキュメント・ベクタ・モデル」は#2のために十分なものになっていますが、#1でもっと見つけにくいです。 もう一度おねがいします! –

+0

#1の場合、「近隣の単語をキーワードとして使用する」というフレーズとして「単語の曖昧さ回避」を行うことができます。おそらく#1(語彙連鎖は一方通行)よりも優れた方法がありますが、それは最も速いことに気づいています。ここをクリックしてください: http://www.scholarpedia.org/article/Word_sense_disambiguation –

関連する問題