2012-03-20 14 views
0

この質問は、ユーザー間の類似度を測定するピアソンの係数を使用したApache Mahoutの推奨部分に関するものです。私の理解によると、ピアソンの係数がユーザー間の類似性をどのように測定するかがここにあります。Apache Mahoutでピアソンの係数の背後にある動機

2人のユーザーがa、b、c、d、eの5つのアイテムを評価したとします。その評価がa1、b1、c1、d1、e1、a2、b2、c2、d2、e2であるとします。ここで、ピアソン係数は、点(a1、a2)、(b1、b2)、(c1、c2)、(d1、d2)および(e1、e2)を考慮して、最小自乗直線近似の推定値を与える。私はこれを行う背後にある主な目的は、現在のユーザーの評価を考慮して、どのオブジェクトの他のユーザーの評価をも予測できるという正確さを表現したいということです。ポイントが直線上にある場合は、現在のユーザーの評価で他のユーザーのレーティングを予測できることを意味します。したがって、係数は1になります。一方、ポイントが直線上にない場合、最小自乗フィットは-1から1のスケールで表され、0は完全にオフセットされています。関係は全くなく、1/-1は完璧なフィット感です。

今、私の質問は、なぜ直線のみですか?なぜ、彼らが放物線に横たわっているかどうかを決定し、それに応じて同様の係数を計算することはできません(放物線がどれくらいうまく収まるか)。直線フィットのみをチェックするのはなぜですか?ピアソン相関係数が定義されているだけの方法です

おかげ アビシェークS

+1

ピアソンの係数は線形関係を前提としています。曲線をモデル化したい場合は、$ y〜x + x^2 + x^3 $の線に沿って、項を追加した線形回帰を使用できます。 –

答えて

1

まあ。

これは1つの可能性の類似メトリックであり、2組の嗜好が比例して一緒に動く度合いを実際に測定しています。この前提がデータセットに適していると思われる場合は、合理的な指標になります。そうでない場合は、別の指標を使用します。

類似性を定義する類似性メトリックを他の方法で実装することもできます。

実際には、ここで別の関係が理にかなっているのはなぜですか?類似性は対称でなければならず、2組の嗜好はそれぞれ、他方の2乗に比例することはできない。私は一般的な線形関係が妥当なものであると考えています。

当然のことながら、対数尤度比のように、このような関係を評価することとは関係のない、他の類似性メトリクスは、おそらくそれほど多くあります。

関連する問題