1

アイテムベースのコラボレーションフィルタを使用してレストランの推奨事項を作成する推奨エンジンで作業しています。各レストランには1〜5の評価でレビューがあります。
すべての推奨アルゴリズムはデータの希薄さに問題を抱えているので、正しい相関を計算するソリューションを探していました。アイテムベースのコラボレーティブフィルタの最小データ量

私はレストラン間の調整された余弦の類似性を使用しています。

レストラン間の類似度を計算する場合は、両方のレストランを評価したユーザーが必要です。しかし、両方のレストランに正しい相関を得るように格付けしたユーザーの最小値はどのくらいでしょうか?

テストから、私は、両方のレストランを評価した1組のユーザーが、類似していないことを明らかにしました(明らかに)。多くの場合、それは-1または1です。私はそれを2つのレストランを持つユーザーの2組に増やしました。私は、この類似性が十分であるかどうかを判断するのは難しいと思っています。この類似性の正確さをテストする方法か、最小値がどのようにあるかに関するガイドラインがありますか?

答えて

0

簡単な答えは、パラメータスイープです。「両方のレストランを評価した最小ユーザー」のいくつかの値を試し、結果を測定します。ユーザーが増えると、アイテム(レストラン)間の類似性が向上します。しかし、あなたの類似情報はもっと疎です。つまり、人気の高いアイテムに集中し、長いテールのアイテムをおすすめすることはできません。これは、常にトレードオフがあることを意味し、トレードオフを行うことができるすべてを測定する必要があります。例えば、予測可能な精度(例えば、RMSE)および推奨可能な項目の数を測定する。

あなたのアイテムスペースがあまりにも疎になった場合、ユーザー評価以外のアイテムアイテムの類似性を行うための他の方法を見つけることができます。たとえば、コンテンツベースのフィルタリング方法を使用して、各レストランの料理に関する情報を含めることができます。次に、各ユーザーの料理の好みを学習する中間ステップを作成します。そうすれば、アイテムアイテムの類似性スコアがない場合でも推奨事項を実行できます。

関連する問題