私は100Gbの文書を持っています。私はそれを特徴づけて、トピックが流行していることの一般的な感覚を得たいと思います。大きなドキュメントセットをビジュアル化するにはどうすればよいですか?
文書はプレーンテキストです。
私はGoogleデスクトップのようなツールを使って検索することを検討しましたが、検索対象を推測するには大き過ぎて、セット全体をカバーするのに十分な検索を実行するには時間がかかります。
大きなデータセットのドキュメントをクラスタリングするツールはありますか?
このようなクラスターを視覚化できるツールはありますか?
どのような文書ですか?構造化文書ですか?プレーンテキスト? – Pierre
実際、どのタイプが本当に重要なのでしょうか?任意のドキュメントタイプは、単純なファイルタイプチェックに基づいて、適切なフィルタを使用してテキストに変換できます。 – viksit