PySparks mllibパッケージは、明示的および暗黙的なデータそれぞれについて推奨モデルをトレーニングするtrain()およびtrainimplicit()メソッドを提供します。PySparkリコメンダーの作成中にユーザーアイテムの機能を組み込む方法は?
暗黙的なデータでモデルを訓練したいと思っています。具体的には、商品購入データ。
uはaは u1, i1, 1 u1, i2, 1 u2, i2, 1 u2, i3, 1 ... un, im, 1
:それは、ユーザーが何度もアイテム以上を購入するというのが私の場合には非常に稀であることから、「評価」や「好み」は常に1です。だから私のデータセットは次のようになりますユーザーと私はアイテム。
私はユーザーの人口統計、場所などのアイテム機能だけでなく、多くの機能を備えています。しかし、pyspark.mllib.als.train
またはpyspark.mllib.als.trainimplicit
の方法では、ユーザーまたはアイテムの機能を組み込むことはできません。
また、fastFMまたはlibfmの使用を検討しました。どちらも、ALSソルバを実装するファクタライゼーションマシンのパッケージであり、回帰/分類の問題としてフレーム推奨です。これらのケースを使用して、ユーザー、アイテムなどの機能をトレーニングデータに含めることができます(X
)。しかし、予測変数y
は、1つのベクトルにすぎません(私は明示的な評価は購入のみではありません)。
この問題を回避するにはどうすればよいですか?