2017-08-15 21 views
0

コサイン類似度は、2人のユーザが質問に対する回答に基づいて類似しているかどうかを判断するのに適したアプローチですか?ユーザ推奨のコサイン類似度

私はユーザーに10の質問に答えて、10次元の整数ベクトルへの応答を解決しようとしています。同様のユーザーを見つけるためにコサイン類似度を使用する予定です。

私は各質問を整数に分解し、整数を合計して各ユーザを単一の整数に解決することを考えましたが、このアプローチの問題は類似性測度に問題はないということです。つまり、 5に解決される質問1に対する回答と0に解決される質問2に対する回答とを含み、別のユーザは質問1に0を、質問2に5を回答し、両方のユーザは合計5に基本的に異なる回答をする。

したがって、コサインの類似性は、各属性に基づいて良好な類似性の尺度を与えるでしょうか?

答えて

1

ユーザごとに1つの整数に解決するすべての整数を合計すると、正しいとは思われません。

私は、コサイン類似度の背後にある直感で役立つかもしれない何コサイン類似性は、実際に類似性尺度としてここに役立ち、あなたにもなど

ジャカード、ユークリッド、マハラノビスのような他の人を試すことができると思います。アイデアは、10次元ベクトルを作成すると、10次元空間で作業しているということです。各行はその空間内のベクトルであるため、各成分の数が重要です.2つのベクトル間のコサインは、それらのベクトルがどのように整列/整列しているかを表します。同じ方向であり、コンポーネントがすべて比例していることを意味し、この場合の類似度は最大です(すべての質問で同じ数字が2人の回答者の例)。あなたの例のようにコンポーネントが異なるようになった場合、ユーザーは質問に5を与え、その他に0を指定すると、ベクトルの塗りつぶしには異なる方向があります。応答の差が大きいほど、ベクトルの間隔が離れるほど、コサインが少なく、したがって類似性が低くなります。

上記の他の類似性の尺度がありますが、pplは通常、これらの測定値のいくつかをテストセットと比較して試しています。

関連する問題