私はちょうどBellKorのPragmatic ChaosチームがWiredのwinning the Netflix Challengeであることを読んでいますが、この種のアルゴリズムがどのように動作するのかが不思議です。私はチームのBellkorのソリューションがフィールド上の革新的なものでなければならないことを知っています..しかし、フィールドは通常どのように機能しますか?マルコフ連鎖が何度も何度も繰り返されている、本当に詳細なデータベースなのでしょうか?自動推奨アルゴリズムは通常どのように機能しますか?
答えて
フィールドは通常どのように機能しますか?
これはデータマイニング技術です。データマイニングは、ビジネスインテリジェンス(データウェアハウスなど)の一部として、膨大な量のデータで関係や情報を検索するために使用されます。これはコンピュータ科学の分野であり、一般的な機械学習にも対応しています。パターン認識。自動推奨はAssociation Miningです。高いサポートとの関連付けが推奨として示されています。 k-nearest-neighborアルゴリズムは、機械学習/データマイニングの人々が使用する多くのアルゴリズムのうちの1つに過ぎません。
基本理論に興味がある場合は、Ian H. WittenのData Mining: Practical Machine Learning Tools and Techniquesをお勧めします。
Javaの場合、のマシン学習パッケージassociation miningを実行することができます。 Ian WittenもWEKAの著者の一人です。
このウィキペディアの記事をご覧ください:Euclidean Distance
基本的な考え方は、(ユークリッドのような)距離メトリックを使用して、人や物を互いに比較することです。
新しいO'Reillyの書籍「Programming Collective Intelligence: Building Smart Web 2.0 Applications」には、このトピックに関する素晴らしい章があります。
私は、以前にBellkorとCinematchによって使用されていたk-nearest-neighbor algorithmを簡単に言及したWiredのthis previous articleを見つけました。
バイアスを見つける方法について心理学者が行った観察も面白いです。
ほとんどのNetflix Competition応募者はSingular Value Decompositionのバリエーションを使用しました。このアルゴリズムは、大きな行列を取り出し、それを近似2x2行列に単純化することによって動作する。この2×2行列は、2次元空間上にプロットすることができ、2次元空間において、互いに近接する点は、元の行列内で互いに親和性を共有する。
Netflixの場合、ムービーが列で、ユーザーが値[i、j]がiユーザーがムービーjを与えた格付けである行であるマトリックスを作成できます。これは、非常に大きなマトリックスであり、それは、大きなマトリックスの近似として働く2次元マトリックスを生成するためにそれに適用されるSVDを有することができる。この飛行機にプロットされたときに互いに近くにいるユーザーは同様の評価を共有するため、あるユーザーが他のユーザーがこの航空機に近くにいる人を見たムービーを見なかった場合、そのことが新しいユーザーに推奨される可能性があります。
優勝したソリューションは、SVD ++と呼ばれるストレートSVDアルゴリズムのバリエーションを設計し、他のエッジケースと組み合わせて、賞を獲得するために必要な10%を超えるアルゴリズムを試作しました。
- 1. ユーザーベースの推奨事項はどのように機能しますか?
- 2. 推奨アルゴリズム
- 3. 自動Ansibleドキュメンテーションはどのように機能しますか?
- 4. MySQL自動インクリメントはどのように機能しますか?
- 5. このアルゴリズムはどのように機能しますか?
- 6. ドキュメント差分アルゴリズムはどのように機能しますか?
- 7. Construct Rectangleアルゴリズムはどのように機能しますか?
- 8. MD5Sumアルゴリズムはどのように機能しますか?
- 9. reduceLeftで型推論機能はどのように機能しますか?
- 10. 自動引数は内部的にどのように機能しますか?
- 11. 自動スケーリングでのクラウドウォッチのロギングはどのように機能しますか?
- 12. Objective Cの自動参照カウントはどのように機能しますか?
- 13. Google自動補完の制限はどのように機能しますか?
- 14. 非推奨の機能:のrequire_once()
- 15. mongodbの 'updateMany'機能は推奨されていませんか?
- 16. フォトコントラストの自動コントラスト機能のアルゴリズム
- 17. ピーク検出アルゴリズムは正確にどのように機能しますか?
- 18. 型付きラケットの型推論はどのように機能しますか?
- 19. 20の質問AIアルゴリズムはどのように機能しますか?
- 20. この除算近似アルゴリズムはどのように機能しますか?
- 21. Javaの階層アルゴリズムはどのように機能しますか?
- 22. このGaussian Blur javascriptアルゴリズムはどのように機能しますか?
- 23. 「推移的リゾルバ」はSBTとどのように機能しますか?
- 24. 型推論はオプションとどのように機能しますか?
- 25. 待機/通知はどのようにJVMレベルで機能しますか?
- 26. 移動コンストラクタはどのように機能しますか?
- 27. ウェブサイトの「不正行為を報告する」機能のアルゴリズムはどのように機能しますか?
- 28. IE6自動余白は機能しますか?これはどのように可能ですか?
- 29. logstash kv {}機能はどのように機能しますか?
- 30. WatchKit:ディクテーション機能はどのように機能しますか?
もう1つのアプローチは、マンハッタン距離(またはTaxicabジオメトリ)です(計算は速く、ユークリッドはあまり正確ではありません) – adhg