1
私はしばらくこの概念を検討してきました。私の理解は非常に基本的です。情報検索は、野生ではほとんどカバーされていないトピックのようです...ドキュメントのクラスタリングの基礎
私の質問は、ドキュメントをクラスタリングするプロセスに由来しています。面白い言葉だけを含む文書の集まりから始めましょう。ここの最初のステップは何ですか?各文書の単語を解析して、巨大な「単語の袋」型モデルを作成しますか?各文書の語数のベクトルを作成しますか? K-meansクラスタリングのようなものを使ってこれらの文書を比較するにはどうすればよいですか?