YARNクラスターではSpark Streaming application
が実行されています。スパークストリーミング - バッチインターバルvs処理時間
Kafka topics
からメッセージを受信しています。
実際、処理時間はバッチ間隔を超えています。
Batch Interval : 1 Minute
Processing Time : 5 Minutes
私が知りたいのですが、一部のデータが処理時間の間に受信された場合に何が起こるか、処理超えるまでメモリ内のデータが利用可能になります。または、後続のデータフェッチでオーバーライドされますか?
私たちはDirect Streaming approach
を使用して、カフカのトピックからデータを取得しています。
私はWindow based
操作と一緒に行かなければなりませんか?例えば私がWindow length as 5 Minutes and Sliding interval as 2 Minutes and Batch Interval as 1 Minute
を持っているなら、それは働くでしょうか?アプリケーションではデータを失うことができないためです。
タイムリーかつ偉大な答えをありがとう。 – Shankar