テキストコンテンツに基づいてどのように分類しますか？

コンテンツに基づいてテキストのカテゴリを自動的に見つける方法を教えてください。テキストコンテンツに基づいてどのように分類しますか？

2008-09-15 Anonymous

投稿者が既にカテゴリを持っていて、分類したい場合、または分類したくない場合、または分類したくない場合、その投稿を発見する必要があるかどうかは、 –

これに書かれた優れた論文があります：http://www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html

2008-09-15 18:38:01 GEOCHET

リンクは今死んでいます:( – Tessmore

は、それがテキストやマルチメディアも、コンテンツを分類するための最良の方法は、taxonomyを使用することです。よく知られているCMSのほとんどはタクソノミをサポートしています。 Drupalには、さまざまなCMSの中でtaxonomyのための最良のサポートがあります。

出典

2008-09-15 18:53:07 Jahangir

私はこれを最善の方法と呼ぶとは思いません。 –

読むData Mining: Practical Machine Learning Tools and Techniques - イアン・H・ウィッテン、Eibeフランク
使用WekaまたはOrange

出典

2008-12-31 18:17:23

私はNatural Language Toolkitにバンドルされたテキスト分類ライブラリを見てことをお勧めします。 Pythonに慣れていなくても、わかりやすくAPIを見つけることができます。 NLTK Bookには多くの良い例があり、メーリングリストの人たちも非常に役に立ちます。

出典

2009-07-01 12:42:19 theycallmemorty

テキストの分類を行う最も簡単な方法は、bag-of-wordsの表現を使用することです。各文書の単語/ nグラムをフィーチャとして使用できます。これにより、すべての文書をメトリック空間でベクトルとして表現できます。その後、clusteringを適用して、コンテンツに関して類似したドキュメントをグループ化することができます。たとえば、k-meansクラスタリングをこれらのベクトルとともに使用して、語彙的に似たドキュメントをクラスタリングすることができます。

Pythonベースのテキストマイニングワークベンチ、NTLKは、これらのようなタスクを素早く試すのに優れています（一般的には、Pythonはテキストを操作するのに適しています）。それが役に立つかもしれません。

出典

2014-04-26 18:52:40

テキストコンテンツに基づいてどのように分類しますか？

答えて

関連する問題