spark 2.2でリアルタイムデータストリーミングを行っています。私の問題のステートメントに従って、私は120秒のスライディングウィンドウ内のデータを照会したい。期間。私は1秒ごとにstreamingquery
をトリガーしています。理想的には、クエリは1つ前の120秒だけ実行する必要があります。データ(更新/新鮮なデータ)。しかし、私がクエリを実行しているとき、それは120秒(古い)データの前に来た全データで実行されています。これは、すでに処理されているデータ上でウィンドウがスライドしていることを意味します。Spark:ストリーミングクエリでイベントタイムスライディングウィンドウを使用しているときの問題
この理由は何でしょうか。どのように新しいデータ(未処理)にのみウィンドウを適用できますか?
くださいpはあなたのコードを動かす。問題の原因を推測するのは難しいです。 –