2009-05-19 4 views
1

私は100Gbの文書を持っています。私はそれを特徴づけて、トピックが流行していることの一般的な感覚を得たいと思います。大きなドキュメントセットをビジュアル化するにはどうすればよいですか?

文書はプレーンテキストです。

私はGoogleデスクトップのようなツールを使って検索することを検討しましたが、検索対象を推測するには大き過ぎて、セット全体をカバーするのに十分な検索を実行するには時間がかかります。

大きなデータセットのドキュメントをクラスタリングするツールはありますか?

このようなクラスターを視覚化できるツールはありますか?

+0

どのような文書ですか?構造化文書ですか?プレーンテキスト? – Pierre

+0

実際、どのタイプが本当に重要なのでしょうか?任意のドキュメントタイプは、単純なファイルタイプチェックに基づいて、適切なフィルタを使用してテキストに変換できます。 – viksit

答えて

0

基本的なNLP手法では、単語の頻度に基づいて各文書をベクトルとして表現し、ベイズ法や他の方法(SVM、k-meansなど)を使用して文書ベクトルをクラスタリングできます。

関連の回答については、somewhat similar SO questionをご覧ください。

-1

自然言語処理を行うツールを調べる必要があります。基本的には、文書の言語(http://en.wikipedia.org/wiki/N-gramを参照)と談話のドメイン(http://en.wikipedia.org/wiki/Support_vector_machineを参照)を確実に(統計ツールを使用して)決定できます。あなたがウィキペディアから始めるなら、いくつかのツールが利用可能になるはずです。

関連する問題