Spark：ストリーミングクエリでイベントタイムスライディングウィンドウを使用しているときの問題

spark 2.2でリアルタイムデータストリーミングを行っています。私の問題のステートメントに従って、私は120秒のスライディングウィンドウ内のデータを照会したい。期間。私は1秒ごとにstreamingqueryをトリガーしています。理想的には、クエリは1つ前の120秒だけ実行する必要があります。データ（更新/新鮮なデータ）。しかし、私がクエリを実行しているとき、それは120秒（古い）データの前に来た全データで実行されています。これは、すでに処理されているデータ上でウィンドウがスライドしていることを意味します。Spark：ストリーミングクエリでイベントタイムスライディングウィンドウを使用しているときの問題

この理由は何でしょうか。どのように新しいデータ（未処理）にのみウィンドウを適用できますか？

出典

2017-05-23 kadsank

くださいpはあなたのコードを動かす。問題の原因を推測するのは難しいです。 –

spark 2.2と構造化ストリーミングでは、集計を実行しているイベント時の列に透かしを指定することができ、Scalaコードは次のようになります。毎秒スライドする120秒のスライディングウィンドウ

query 
.withWatermark("event-time-column", "120 second") 
.groupBy("event-time-column", "120 second", "1 second")

したがって、120秒よりも古いデータからすべてのデータおよび凝集状態が廃棄されようとしているだけ新鮮なデータがここに

完全なドキュメント処理されます。 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html

出典

2017-12-07 14:21:05

Spark：ストリーミングクエリでイベントタイムスライディングウィンドウを使用しているときの問題

答えて

関連する問題