2017-06-07 13 views
0

私は、アソシエーションルールを学び、財問題の古典的なバスケットにアルゴリズムを実装する方法を知っている、のような:相関ルール - 非バイナリ項目

Transaction ID Potatoes Eggs Milk 
A     1  0  1 
B     0  1  1 

この問題では、各アイテムは、バイナリ識別子を持っています。 1はバスケットが品物を含むことを示し、0はそうでないことを示す。

しかし、同じ商品の多くを含むことができるバスケットをモデル化するにはどうすればよいでしょうか?たとえば、以下の、非常に非現実的な例を取ってください。

この場合には、バイナリ指標を使用して
Transaction ID Potatoes Eggs Milk 
A     5  0  178 
B     0  35  7 

は明らかに多くの情報を失うことになると私は考慮に入れ、バスケット内のアイテムが存在するだけでなく、アイテムが発生する頻度だけでなく、かかるモデルを求めています。

この問題にはどのようなアルゴリズムが適していますか?

実際のデータには100以上のアイテムがあり、ユーザーのバスケットのプロファイルに基づいて、他の使用可能なアイテムを消費する顧客の確率を計算したいと思います。

答えて

-1

本当に確率を求めたいのであれば、データを確率的な方法でエンコードすることだと思います。ベイジアンまたはマルコフネットワークは実現可能な方法かもしれない。それにもかかわらず、合理的な構造を持たなければ、これは非常に広範囲の計算になります。しかし、3つのアイテムタイプの場合、これは実現可能なようです。

さらに多くのアイテムタイプがある場合は、ニューラルネットワークオートエンコーダーに行きます。データに何らかの依存関係がある場合は、それが検出されます。

上記の例では、3つの入力、2つの隠れた出力、3つの出力ニューロンを持つネットワークを使用できます。

3つの完全に接続されたレイヤーを中間レイヤーにドロップアウトして使用するのが少し賢明です。

関連する問題