2012-04-16 14 views
3

私は1.0で表される嗜好の大きなデータセットを持っています。私はTanimoto類似性関数と一般的なブールユーザーとアイテム設定推薦者を使用しています。推奨値は、一般に0〜1.0の値です。なぜLogLikelihoodSimilarity関数は、0と1のデータセットに対して1.0より大きい値を返しますか?

Mahout in Actionの本のような多くの情報源とthis prior SO threadは、ブール型データセットに対してTanimotoよりもLogLikelihoodSimilarityメトリックを推奨しています。 LogLikelihood Similarityメトリックに切り替えると、11などのより高い範囲でいくつかのスコアが生成されました。私は、より官能的な評価を得るために谷本に戻らなければなりませんでした。潜在的な修正を提案することができますか、または推奨項目の得点の戻り値を誤解していますか?

答えて

2

評価がない場合、あなたが守る価値は、ではありません。予想された評価です。結局、それらはすべて1.0であるため、ランク付けに使用することはできません。結果は実際には類似点の合計です。なぜなら、それは任意に大きくなる可能性があるからです。それは[0,1]かそれに類するものではないはずです。

+1

LogLikelihoodSimilarityを使用して、どのように予測をスコアリングしますか?アソシエーションを表すために設定できるしきい値はありますか、それとも不足していますか? – kitwalker

+0

あなたはまだ値で予測をランク付けします。いいえ、魔法の閾値はありません。あなたのデータとユースケースによって異なります。 –

関連する問題