2011-12-14 5 views
0

好き、タグなどのユーザーアクションに多数のデータppintを保存したい(私は電子商取引とドキュメント管理の両方の計画がある)。データポイントで設定が簡単なリアルタイムのリコメンデーションエンジン

、私はそのような

  1. 「XがYを愛し愛さユーザー、Z」の推奨
  2. クラスタリング「X、Yに似た多くのものをフェッチ」などの機能をサポートしたいです。生産準備ができて、リアルタイムことで

。私は、データポイントを入力して同時にクエリを作成できることを意味します。サーバーは、クエリに応答してスコアを更新します。


私はinterwebsの周りに検索し、出てくるのソリューションは、のいずれかです:

    主に学術志向であり、大規模なバッチ操作のために意図されている
  1. データマイニングライブラリ、ない重いためリアルタイムクエリー
  2. Hadoop/Mahoutは実稼働環境であり、リアルタイムのアップデートとクエリをサポートしますが、は急な学習曲線と管理しにくいです。

答えて

2

推奨のために、Mahoutには、Hadoopを使用しない非分散リコメンダー実装があります。実際、これはリアルタイムで唯一の部分です。 Hadoopベースの部分はそうではありません。

私はそれにほとんど学習曲線がないと思います。かなり完全な朗読のためにherehereを見てください。

Mahout in Action第2章から第5章までがこれを非常によくカバーしています。

0

有用な推奨事項については、そのようなシステムのさまざまなパラメータを慎重に調整する必要があります。多くのシステム(Oracleデータマイニング、Microsoftデータマイニング拡張など)は、すぐに使用できる機能を備えており、コア機能を提供しています。

最終的には、「急な学習曲線」を乗り越えることはできません。そのため、データマイニングの専門家が必要です。ポイントアンドクリックソリューションがあれば、どこにでも統合されています。

例「類似アイテム」。 AmazonがDebian Linux管理者ハンドブックとDebian Linux Admininstrators Handbook with CDの2つの製品を購入するように勧めたとき、私は笑った。

私はあなたがこの例の要点を得ることを願っています:単純なアルゴリズムでは、2つの書籍は "類似"と見えます。したがって、合理的な組み合わせです。人間には、同じ本を2度買うのは無意味です。あなたはに、のルールを推薦システムに教える必要があります。なぜなら、これらのルールはデータから簡単には学ぶことができないからです。常に良い結果と無駄な結果があり、システムを注意深く調整し、パラメータ化する必要があります。

関連する問題