2011-11-08 11 views
1

私はしばらくこの概念を検討してきました。私の理解は非常に基本的です。情報検索は、野生ではほとんどカバーされていないトピックのようです...ドキュメントのクラスタリングの基礎

私の質問は、ドキュメントをクラスタリングするプロセスに由来しています。面白い言葉だけを含む文書の集まりから始めましょう。ここの最初のステップは何ですか?各文書の単語を解析して、巨大な「単語の袋」型モデルを作成しますか?各文書の語数のベクトルを作成しますか? K-meansクラスタリングのようなものを使ってこれらの文書を比較するにはどうすればよいですか?

答えて

1

試しにTf-idfを試してください。 「scikit学習は、袋の語を使用して、トピックで 文書をクラスタ化するために使用することができる方法を示す例が近づき、」
:あなたは、Pythonを読めば
は、scikit-learnに 「MiniBatchKmeansを使用してクラスタリングテキストドキュメント」を見て。
ソース内のfeature_extraction/text.pyには非常に良いクラスがあります。