この質問は、ユーザー間の類似度を測定するピアソンの係数を使用したApache Mahoutの推奨部分に関するものです。私の理解によると、ピアソンの係数がユーザー間の類似性をどのように測定するかがここにあります。Apache Mahoutでピアソンの係数の背後にある動機
2人のユーザーがa、b、c、d、eの5つのアイテムを評価したとします。その評価がa1、b1、c1、d1、e1、a2、b2、c2、d2、e2であるとします。ここで、ピアソン係数は、点(a1、a2)、(b1、b2)、(c1、c2)、(d1、d2)および(e1、e2)を考慮して、最小自乗直線近似の推定値を与える。私はこれを行う背後にある主な目的は、現在のユーザーの評価を考慮して、どのオブジェクトの他のユーザーの評価をも予測できるという正確さを表現したいということです。ポイントが直線上にある場合は、現在のユーザーの評価で他のユーザーのレーティングを予測できることを意味します。したがって、係数は1になります。一方、ポイントが直線上にない場合、最小自乗フィットは-1から1のスケールで表され、0は完全にオフセットされています。関係は全くなく、1/-1は完璧なフィット感です。
今、私の質問は、なぜ直線のみですか?なぜ、彼らが放物線に横たわっているかどうかを決定し、それに応じて同様の係数を計算することはできません(放物線がどれくらいうまく収まるか)。直線フィットのみをチェックするのはなぜですか?ピアソン相関係数が定義されているだけの方法です
おかげ アビシェークS
ピアソンの係数は線形関係を前提としています。曲線をモデル化したい場合は、$ y〜x + x^2 + x^3 $の線に沿って、項を追加した線形回帰を使用できます。 –