2012-02-06 8 views
0

ユーザーが1〜5のスケールで映画に投票したとしましょう。これらの映画にはジャンル情報があり、映画には複数のジャンルが含まれることがあります。このように:評価値のユーザーの中で最も好きなアイテムを見つける

Movie A Rating 4 
Action/Sci-Fi 

Movie B Rating 5 
Comedy/Action 

Movie C Rating 4 
Comedy/Drama 

私たちはどのジャンルが私たちのユーザーを好きであるか学びたいと思っています。

Genre Movie_Count Average_Rating 

---------- 
Action 2 5 
Comedy 2 4.5 
SciFi 1 4 
Drama 1 4 

明らかに、我々はこのような小さな結果セットを使って何を予測しますが、私たちは、より大きなデータセットをしたと仮定しましょうことができません。ここでは、私たちの結果セットを持っています。

このデータを使用して、このユーザーの最も好きなジャンルをどのように並べ替えることができますか?単に加重平均や何かもっと複雑なものを計算するだけですか?

答えて

1

私はここを参照してください主な問題は次のとおりです。あなたがそれらを注文するにはどうすればよい

4.1の平均スコアと4本の

ユーザー率10アクション映画の平均スコアと

ユーザー率1000年コメディ映画?

説明と解決策の1つとしてhttp://www.evanmiller.org/how-not-to-sort-by-average-rating.htmlを参照してください。

もう一つの問題は、次のようになります。

映画はコメディとアクションの両方であり、それはコメディやアクションであるため、それがあったどのくらい4.0の評価を与えた場合は?

期待値最大化http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithmを使用してこれを解決できます。

関連する問題