コンテンツに基づいてテキストのカテゴリを自動的に見つける方法を教えてください。テキストコンテンツに基づいてどのように分類しますか?
答えて
これに書かれた優れた論文があります:http://www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html
リンクは今死んでいます:( – Tessmore
- 読むData Mining: Practical Machine Learning Tools and Techniques - イアン・H・ウィッテン、Eibeフランク
- 使用WekaまたはOrange
私はNatural Language Toolkitにバンドルされたテキスト分類ライブラリを見てことをお勧めします。 Pythonに慣れていなくても、わかりやすくAPIを見つけることができます。 NLTK Bookには多くの良い例があり、メーリングリストの人たちも非常に役に立ちます。
テキストの分類を行う最も簡単な方法は、bag-of-wordsの表現を使用することです。各文書の単語/ nグラムをフィーチャとして使用できます。これにより、すべての文書をメトリック空間でベクトルとして表現できます。その後、clusteringを適用して、コンテンツに関して類似したドキュメントをグループ化することができます。たとえば、k-meansクラスタリングをこれらのベクトルとともに使用して、語彙的に似たドキュメントをクラスタリングすることができます。
Pythonベースのテキストマイニングワークベンチ、NTLKは、これらのようなタスクを素早く試すのに優れています(一般的には、Pythonはテキストを操作するのに適しています)。それが役に立つかもしれません。
投稿者が既にカテゴリを持っていて、分類したい場合、または分類したくない場合、または分類したくない場合、その投稿を発見する必要があるかどうかは、 –