2016-08-22 9 views
0

ペアごとの文書類似度スコアを組み合わせて、特定の文書の全体的な類似度スコアを文書コレクションに対して得る方法はありますか?ドキュメントコレクションに対するドキュメントの類似性を計算する方法は?

ドキュメントコレクションに対するドキュメントの類似性を計算するにはどうすればよいですか? - ResearchGate。利用可能:https://www.researchgate.net/post/How_to_compute_document_similarity_against_a_document_collection [アクセスしたAug 22、2016]。

答えて

0

これに近づく1つの方法は、ナイーブベイズテキスト分類器が機能する方法です。コレクション内のすべてのドキュメントを1つの大きな疑似ドキュメントに「連結」することで、特定のドキュメントとその「コレクションの」ドキュメントとの類似性を評価できます。これがスパムフィルタの大部分の動作です。彼らはあなたのスパム文書に見られるテキストと "安い医薬品"のテキストを比較し、あなたが読む傾向のある文書よりもそれらが似ているかどうかを確認します。

コレクションの表現を事前計算した後でドキュメントごとに一度類似度計算を行うだけで済むので、このような類似性を計算する最も効率的な方法は、おそらく最も効率的な方法です。

文書の類似性マトリックスが本当にあり、擬似文書を作成するのではなく、文書対の類似性を使用する場合は、ほぼクラスタリングを実行しています。 (文書内の類似点をどのように組み合わせるかは、クラスタリングのタイプにおける異なるリンク方法の主題であるため、これを言います)。

これを行う1つの方法は、平均的な類似性を調べることです。ドキュメントの場合、そのドキュメントと他のすべてのドキュメントとの間の類似度スコアを合計し、合計で除算します。これにより、類似性空間内の他の文書との間の平均距離を知ることができます。外れ値の平均距離は、クラスタの中心にあるドキュメントよりも離れているため、平均距離が大きくなります。

あなたの類似性指標や解決しようとしている問題についての情報がないと、私はより良いアドバイスをすることができません。

関連する問題