2008-09-15 14 views

答えて

0

は、それがテキストやマルチメディアも、コンテンツを分類するための最良の方法は、taxonomyを使用することです。 よく知られているCMSのほとんどはタクソノミをサポートしています。 Drupalには、さまざまなCMSの中でtaxonomyのための最良のサポートがあります。

+2

私はこれを最善の方法と呼ぶとは思いません。 –

2

私はNatural Language Toolkitにバンドルされたテキスト分類ライブラリを見てことをお勧めします。 Pythonに慣れていなくても、わかりやすくAPIを見つけることができます。 NLTK Bookには多くの良い例があり、メーリングリストの人たちも非常に役に立ちます。

0

テキストの分類を行う最も簡単な方法は、bag-of-wordsの表現を使用することです。各文書の単語/ nグラムをフィーチャとして使用できます。これにより、すべての文書をメトリック空間でベクトルとして表現できます。その後、clusteringを適用して、コンテンツに関して類似したドキュメントをグループ化することができます。たとえば、k-meansクラスタリングをこれらのベクトルとともに使用して、語彙的に似たドキュメントをクラスタリングすることができます。

Pythonベースのテキストマイニングワークベンチ、NTLKは、これらのようなタスクを素早く試すのに優れています(一般的には、Pythonはテキストを操作するのに適しています)。それが役に立つかもしれません。