KafkaソースからSpark DStreamをコンシューマとしてストリーミングすると、スパークコンテキストをチェックポイントできるので、アプリがクラッシュしたとき(またはkill -9
の影響を受ける)、アプリはコンテキストチェックポイントから回復する。しかし、アプリが「誤って悪いロジックでデプロイされている」場合は、最後のトピック+パーティション+オフセットに戻って、特定のKafkaトピックのパーティションのオフセット位置からイベントを再生し、「不良ロジック」の前にうまくいきたい場合があります。チェックポイント機能が有効になっている場合、ストリーミングアプリは最後の「良い点」(トピック+パーティション+オフセット)にどのように巻き戻されますか?KafkaソースからのSparkストリーミングチェックポイントまたは巻き戻しに戻る
注:I(ハート)ログで、Jay Krepsは、発散したカフカのオフセット位置から始まり、元のデータに追いついてから元のデータを消去するまで、並列消費者(グループ)プロセスを使用します。 (この第2スパークストリーミングプロセスは、特定のパーティション/オフセットの場所からの開始に関してどのように見えるのですか)
サイドバー:この問題は、同様のメカニズムを展開する必要がある可能性があるので、Mid-Stream Changing Configuration with Check-Pointed Spark Streamに関連している可能性があります。