私は推薦システムを構築することを楽しみにしています。それは、ユーザーが投稿した設定やレビューを見て、次にnetflixやamazonのようなものを推奨するアルゴリズムを意味します。推奨システムについてはどこで知ることができますか?
このようなことを書く方法を学習するには、どのような優れたリソースがありますか?私はどこから始めるべきですか?
私は推薦システムを構築することを楽しみにしています。それは、ユーザーが投稿した設定やレビューを見て、次にnetflixやamazonのようなものを推奨するアルゴリズムを意味します。推奨システムについてはどこで知ることができますか?
このようなことを書く方法を学習するには、どのような優れたリソースがありますか?私はどこから始めるべきですか?
Netflix Prizeとそのdiscussion forumのWikipediaのページをご覧ください。また、やや関連した2009 GitHub Contestは、多くの異なるリコメンデーションエンジンでの完全なソースコードの良いソースです。そして確かにある程度のリンクを持っているWikipedia page on the topic itselfもあります。
自分で作成する場合は、コーパスを使用します。私は実際にNetflix Prize's data setの使用をお勧めします。データセットを2つの部分に分けるだけです。最初の部分をトレーニングし、2番目の部分にアルゴリズムを記録します。
補遺:事のこの種のやや関連すると怖いアプリケーションはpredicting demographic informationです:など、ユーザーの性別、年齢、世帯収入、IQ、性的指向、あなたはおそらくNetflixの賞で、これらの属性のほとんどを行うことができますかなり高い精度でデータセットを作成できます。幸いにもeveryone in that dataset is just a number。
collaborative filtering(Amazon.comで使用されている)のさまざまな推奨アルゴリズムを実装しているPythonライブラリpysuggestをご覧ください。
何が怖いですか?マーケティング担当者は、HTTPヘッダーからブラウザ、IP、その他の情報に基づいて常にあなたを予測しようとします。実際の情報ではなく、単に「情報に基づいたステレオタイプ」(条件付きベイズ)です。 – isomorphismes
データは「匿名」として表現されていたが、実際にはそうではなかったため?これは、ユーザーが自分のデータを共有することを決して選択しなかった場合に特に悪いことです。 –
あなたが何を意味するのか正確に理解できないかもしれません。ユーザー2871875のユーザー属性を正確に推測できるため、匿名性に違反しているとお考えですか? – isomorphismes