0

コサイン類似度はK平均アルゴリズムとどのように使用されますか?</p> <p><strong>Q1:次にどのクラスタが構成されているどのように余弦のkによって使用される類似</strong>エントリが用語のTF-IDFであるVSMでそのベクターで異なる長さを有する3つのテキスト文書ベクトルについて

Q2: TF-IDFアルゴを使用すると、その負の値を生み出すと、私の計算に問題はありませんか?

以下のドキュメントを使用してください。VSM(tf.idf)は説明の目的ですべてが異なるベクターの長さです。

Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0) 
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553) 
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0) 

私は私の質問について説明することができますありがとうございます。

+0

この質問は、プログラミングではなく数学に根差しているように見えるので、私はこの質問をトピックとして締めくくっています。この質問は、MathOverflowや[Mathematics](http://math.stackexchange.com/help/on-topic)などのいくつかの他の数学関連のSEサイトのトピックに載っているかもしれませんが、投稿する前にトピックについての独自の調査を行います。 – HPierce

答えて

0

コサイン類似度とは、ユークリッド距離ではなくベクトル/ k平均中心の内積をとることを意味します。

ドットプロダクトは、すべてのディメンションでa.x b.x + a.y b.y ... + a.zz * b.zzです。一般的に、まずベクトルを正規化します。次に、結果に対してacos()を呼び出します。

本質的には、結果をランダムに集中したクラスタではなくセクタに分割しています。

関連する問題