NLTK

2011-07-05 11 views
6

私は、「関係構築」、「協調」、「情報共有」、「知識の共有」&「紛争解決」のようないくつかのカテゴリにテキストメッセージを分類するに選ぶためにどの分類器。私はこれらのデータを処理するためにNLTKライブラリを使用しています。 nltkでどのような分類子がこの特定の複数クラス分類問題の方が良いかを知りたいと思います。NLTK

ナイーブベイズ分類を使用する予定ですが、お勧めですか?

答えて

8

ナイーブベイズ分類器を理解する最も簡単かつ簡単であり、その理由のためにそれを使用することがうれしいです。最良の分類を見つけるためにビーム探索を行う決定木は、理解するのが非常に難しくなく、通常は少し良くなります。 MaxEntとSVMはより複雑になる傾向があり、SVMは適切になるにはチューニングが必要です。

最も重要なのは、機能の選択+提供するデータの量/品質です。あなたの問題に

、私はあなたが良いトレーニング/テストデータセットを持っており、また、良好な機能を選択確保する上で最初に焦点を当てます。あなたはこの質問をしているので、NLPの機械学習の経験はあまりありませんでした.Naive Bayesは複雑な機能を使用しないため、簡単に使い始めることができます。

編集: 質問How do you find the subject of a sentence?と私の答えも見ておく価値があります。

+1

お返事ありがとうございます。私はSMSのテキストメッセージを分類しており、その言語の約50%がOOV(ボキャブラリー)であるため、私はこれらのSMSをモーゼスの統計的機械翻訳ツールを使って約15-20%のOOVで正規のテキストに正規化しています。これらのテキストメッセージを正規化する他の方法をお勧めしますか? – Maggie

+0

残念ながら、私はそれについては何も知らないので、テキストの正規化についてはコメントできません。エモーティコンと省略語の辞書があるのでしょうか? Twitter + SMSは本当に難しいです! – nflacco

2

はい、カテゴリごとにナイーブベイズ分類器をトレーニングして、分類器が最高のスコアを提供するに基づいて、クラスに各メッセージにラベルを付けることは、このような問題への標準的な最初のアプローチです。 Support Vector Machine(Wekaプラグインを使用してNLTKで利用可能だが、肯定的ではないと思われる)のように、パフォーマンスが不十分であるとわかった場合は、Naive Bayesの代わりに使用できるより洗練された単一クラス分類子アルゴリズムがあります。 Naieve Bayesを特に不適切なものにするこの問題のドメインに固有の何かを考えることができない限り、多くのプロジェクトで "最初に試してみる"。私はそれがネイティブマルチクラス分類を扱う信じるように私がしようと考えるでしょう

他のNLTK分類器は、MAXENTだろう。 (複数のバイナリクラスファイヤーアプローチは非常に標準的で一般的ですが)。いずれにしても、最も重要なことは、適切にタグ付けされたテキストメッセージの非常に大きなコーパスを収集することです。

実際の携帯電話のテキストメッセージを「テキストメッセージ」といいますと、これらは非常に短い傾向にあり、言語は非常に非公式で多様ですが、私は機能選択が分類子よりも精度を決定する上で大きな要因になると思いますあなたのための選択。例えば、一般的な略語やイディオムを理解しているステムマーやレムマタイザーを使用したり、品詞やチャンクをタグ付けしたり、エンティティを抽出したり、用語間の関係を抽出したりするのは、より複雑な分類子を使用するよりも、

同じ問題のいくつかを持っており、これにいくつかの洞察を提供することができる感情に基づいて、Facebookのステータスメッセージの分類について本論文で会談。私は、元のサイト/ wの問題を抱えているため、リンクは、Googleのキャッシュにある:

http://docs.google.com/viewer?a=v&q=cache:_AeBYp6i1ooJ:nlp.stanford.edu/courses/cs224n/2010/reports/ssoriajr-kanej.pdf+maxent+classifier+multiple+classes&hl=en&gl=us&pid=bl&srcid=ADGEESi-eZHTZCQPo7AlcnaFdUws9nSN1P6X0BVmHjtlpKYGQnj7dtyHmXLSONa9Q9ziAQjliJnR8yD1Z-0WIpOjcmYbWO2zcB6z4RzkIhYI_Dfzx2WqU4jy2Le4wrEQv0yZp_QZyHQN&sig=AHIEtbQN4J_XciVhVI60oyrPb4164u681w&pli=1

+0

お返事ありがとうございます。はい、私はSMSとその言語の非常に非公式(明らかに)約50%の単語が語彙外ですので、私はモーゼスの統計的機械翻訳ツールを使って約15-20%のOOVでこれらのSMSを正規のテキストに正規化しました。これらのテキストメッセージを正規化する他の方法をお勧めしますか? – Maggie