0

私は非常に新しいmlですので、一連のイベントに反映する時系列データを使ってスパークマシンの学習ライブラリをどのように使うことができるかを理解するのが難しいです。平均化シーケンスから次のイベントを予測する

私はこの情報が含まれているテーブルを持っている:

StepN番号、element_idは、SESSION_ID

ステップn#は、各要素が出現する順序がある

は、element_idをクリックし、SESSION_IDされた要素がありますこれはユーザーセッションが発生しました。

これは、セッションごとに複数のセッションと複数の要素シーケンスで構成されています。すなわち、1つのセッションは複数の行の要素を含むことになる。また、各セッションには同じ開始点と終了点があります。

私の目的は、観察された要素シーケンスを使用して、クリックされる可能性が最も高い次の要素を予測するモデルを訓練することです。意味私は前の出来事を与えられた次の出来事を予測する必要があります。

(言い換えれば、私は平均的なユーザーに必要なモデルが平均に基づいて、次の最も関連のクリックを予測することができるようになりますように、特定のワークフローの動作をクリックしてください)

論文と例Iからオンラインで検索する私は、トレーニングモデルの入力として使用される一連のイベントがある場合には、これが意味があると理解しています。

私の場合でも、複数のセッション/インスタンスのインスタンス(すべて同じポイントで開始)があり、平均化モデルを訓練したいと思います。私は、それはどのようにスパークのHMMを使用してアプローチすることができるか理解することは少し難しいと思う。このケースをカバーする実用的な例やチュートリアルはありますか?

私の記事を読む時間を費やしてくれてありがとう。任意のアイデアをいただければ幸いです!

+0

マルコフチェーンを調べることができます。 –

答えて

1

これは、頻繁なパターンマイニングでも解決できます。 https://spark.apache.org/docs/latest/mllib-frequent-pattern-mining.html

この状況では、頻繁に頻繁に発生するアイテムを頻繁に見つけることができます。最初のステップでは、何が頻繁であるかをモデルに教えます。次に予測ステップでは、モデルはいくつかのイベントを見ることができ、このイベントの最も一般的なイベントを予測できます

+0

これは有望そうだ。私はそれを試してみましょう、ありがとう! – Kratos

+0

それは魅力のように動作します:Dありがとうございますが、シリーズに重複がある場合はクラッシュします。そこに解決策はありますか? – Kratos

関連する問題