テキスト(特に、Twitterメッセージ)を選んで特定のトピックに関連するかどうかを調べたいと思います。あなたはその道を下ってきましたか?もしそうなら、私はあなたがどのようなアプローチをとるのか聞いてみたいと思います。トピックのテキストを検出していますか?
私の場合は、トピックキーワードを検索するだけで、約7%の時間がかかるテキストが得られます。キーワードには複数の意味があり、そのうちのいくつかはトピックに含まれていません。私の使用のために、自動フィルタリングは完璧である必要はありません。私は、抽出されたメッセージがトピックの80%に関連していれば満足しています。私はまた、話題のメッセージの10-30%を失うことに喜んでいます。
最初のパスを手作業で行うと、特定の英語のフレーズのように、メッセージが良いと思われるいくつかの特徴があります。他の特性は、URL、複数のハッシュタグ、および他のフレーズのような拒絶の可能性が高い。他のものは評価することが難しい。
手作業で一連の正規表現と関連するウェイトを作成し、好きな出力が得られるまで手で調整することができました。それはうまくいくだろう。しかし、私はいくつかの可能なアプローチを挙げることができます、そして、私はStack Overflowリーダーがどんなものに幸運を持っているのか疑問に思っています。
ありがとうございます!
ありがとう、ライアン。私はこれらを見ていきます。 私はどの道に行くかは、事前に分類された多数の例が役立つように思えます。だから私はまずMechanical Turkの仕事をまとめるつもりです。 有望に思える選択肢1については、正しい方向に私を導くリンクやgoogleフレーズがありますか? 「ドキュメント・ベクタ・モデル」は#2のために十分なものになっていますが、#1でもっと見つけにくいです。 もう一度おねがいします! –
#1の場合、「近隣の単語をキーワードとして使用する」というフレーズとして「単語の曖昧さ回避」を行うことができます。おそらく#1(語彙連鎖は一方通行)よりも優れた方法がありますが、それは最も速いことに気づいています。ここをクリックしてください: http://www.scholarpedia.org/article/Word_sense_disambiguation –