私は、一連のドキュメント間の類似性を判断しようとしています。私が使用している方法の1つは、TF-IDFの結果とのコサインの類似性です。SklearnとgensimのTF-IDFの実装
私はsklearn、私に同様の結果が得られgensimの実装、両方を使用しようとしましたが、別のマトリックス中に自分の実施結果。
は分析した後、私は彼らの実装は、私が勉強してきたものとは異なることに気づいたと出くわした:
はSklearnとgensimがTFとして生のカウントを使用し、そして得られたベクトルにL2ノルム を適用します。他の側では
、私が見つけた実装が用語数を正規化し、
TF = term count/sum of all term counts in the document
のような私の質問は、その実装との違いは何か、ですか?彼らはクラスタリングやその他の目的のために、より良い結果を最終的に提供しますか?
EDIT(質問がより明確になります): 最終結果を正規化してから数え上げを正規化するまでの違いは何ですか? scikit学習で
ええ、実装をチェックしたところ、私はすでに手作業で類似の結果を得ています。 私は両方の方法は、文書の長さに対抗するために使用されますので、私は、begginingで用語頻度を正規化対最終結果を正規化するとの違いは何であるか尋ねた、私の質問と明示的ではなかったと思います。 – msk