bag of words
として各ドキュメントを表し、特定のドキュメントの単語を表すにはtf-idf
の重みを使用します。次にすべてのn
文書で余弦類似度を計算します。すべての類似値を合計し、次に正規化する(最終的なsim値をn
で除算する)。 n
文書と対象文書との間で合理的な類似性が得られるはずです。
また、mutual information(sklearn.metrics.mutual_info_score)、KL-divergenceと見なして、2つのドキュメントの類似度/差異を測定することもできます。それらを使用する場合は、文書を確率分布として表現する必要があることに注意してください。私はそれらのいずれかがあなたとの間の類似性/非類似性について合理的なアイデアを与えるだろうと考えてい
Probability(w) = TF(w)/TTF(w)
、
TF(w) = term frequency of word, w in a document, d
TTF(w) = total term frequency of word, w [sum of tf in all documents]
:文書内の用語の確率を計算するためには、単純に次の式を使用することができますn
文書と対象文書。
私の回答はあなたを助けましたか?はいの場合は、それを受け入れることができます。 –