2016-12-03 17 views
-1

特定のトピックについて特定の詳細について「n」個のドキュメントがあるとします。大多数の文書と似ていない文書を入手したい。このように漠然としているように、私は2つの文書の間にコサインの類似性を見つける方法を知っています。しかし、私は互いに似ている10の文書を持っていることを「知っている」と言います。私は11番目の文書を紹介し、個々の文書だけでなく、それらの文書とどれほど似ているかを判断する方法が必要です。ドキュメントの類似性 - 奇妙なもの

私はscikitを使って学習していますので、参考にして回答やテクニックが役立ちます!

+0

私の回答はあなたを助けましたか?はいの場合は、それを受け入れることができます。 –

答えて

0

bag of wordsとして各ドキュメントを表し、特定のドキュメントの単語を表すにはtf-idfの重みを使用します。次にすべてのn文書で余弦類似度を計算します。すべての類似値を合計し、次に正規化する(最終的なsim値をnで除算する)。 n文書と対象文書との間で合理的な類似性が得られるはずです。

また、mutual informationsklearn.metrics.mutual_info_score)、KL-divergenceと見なして、2つのドキュメントの類似度/差異を測定することもできます。それらを使用する場合は、文書を確率分布として表現する必要があることに注意してください。私はそれらのいずれかがあなたとの間の類似性/非類似性について合理的なアイデアを与えるだろうと考えてい

Probability(w) = TF(w)/TTF(w) 

TF(w) = term frequency of word, w in a document, d 
TTF(w) = total term frequency of word, w [sum of tf in all documents] 

:文書内の用語の確率を計算するためには、単純に次の式を使用することができますn文書と対象文書。

関連する問題