私は、入力データで計算されたいくつかの集計に基づいて、リアルタイムダッシュボードを表示するという要件に取り組んでいます。Spark Streamingを使用して計算結果を定期的に保存しますか?
私はSpark/Spark Streamingを探索し始めました。Spark Integrationをマイクロバッチでリアルタイムで計算し、UIダッシュボードに提供することができます。
私のクエリは、Spark Integrationジョブの開始後、いつでも停止またはクラッシュし、最後に処理していた位置から再開する方法です。私はSparkが社内の状態を維持していることを理解し、受け取ったすべての新しいデータについてその状態を更新します。しかし、それが再開されたとき、その状態は消えないでしょう。
Sparkが再び再起動したときにSparkが処理を再開できるように、実行中の合計/結果を定期的に保持する必要があると感じています。しかし、スパークストリーミングでどうすればいいのか分かりません。
しかし、Spark Streamingがデフォルトで使用し始めているので、データが失われないようにするかどうかはわかりません。
誰かが同様のシナリオに直面した場合は、これに対処する方法について考えてください。
私はあなたがここにいくつかの答えを見つけるだろうと思う。https://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing – maasg