私はupdateStateByKey()
とmapWithState()
の機能でSpark Streamingを使用していますが、状態が保存されている場所は明確に分かりません。状態はHDFSに保存されますか?それとも、メモリ内のストレージですか?フォールトトレランスはどのように保証されますかSpark Streamingsの状態はどこに保存されていますか?
3
A
答えて
5
現在、Spark Streamingにはステートフルストリーム用の2つの実装があります。 1つは古いPairRDDFunctions.updateStateByKey
(スパーク< = 1.5.0)で、CoGroupedRDD
を使用して各キーの状態を保存します。 PairRDDFunctions.mapWithState
(Spark> = 1.6.0)と呼ばれる新しいバージョンはOpenHashMapBasedStateMap[K, V]
を使用して内部状態を保存します。これらの両方は、これらのステートフル・ストリームの両方は、永続フォールトトレランスのためのメカニズムとしてcheckpointingを使用インメモリ実装
あります。チェックポイントの場所は、HDFSまたはAmazonのS3です。ここで、データは、ユーザーがDStream.checkpoint
を使用して定義した間隔ごとに保持されるか、デフォルト(バッチ間隔*定数)になります。ステートフルストリームを使用する場合は、チェックポイントディレクトリを指定する必要があります。
0
状態は、ストリーミングコンテキストの開始時に指定されたチェックポイントディレクトリに格納されます。チェックポインティングとフォールトトレランスの詳細については、documentationを参照してください。
関連する問題
- 1. アクターモデル(Akka.net)に状態が保存されていますか?
- 2. 内部状態はどこに保存しますか?
- 3. アプリケーションの状態、データはどのくらいメモリに保存されますか?
- 4. HTML ipywidgets状態がノートブックに保存されていません
- 5. 私のApache Sparkパイプラインの中間状態を保存します
- 6. PHPセッション状態が保存されていません
- 7. クライアント側の状態を保存していますが、クライアントに送信された状態データが表示されることはありますか?
- 8. ロケールのリソースはどこに保存されていますか?
- 9. Jcommentsのデータはどこに保存されていますか?
- 10. ServiceWorkerのデータはどこに保存されていますか?
- 11. ByteArrayのデータはどこに保存されていますか?
- 12. ネイティブアンドロイドブラウザのクッキーはどこに保存されていますか?
- 13. gdbのブレークポイントはどこに保存されていますか?
- 14. BigQueryのデータはどこに保存されていますか?
- 15. svnのデフォルトコミットメッセージはどこに保存されていますか?
- 16. Magentoのパスワードはどこに保存されていますか?
- 17. Djangoのユーザーモデルフィールドはどこに保存されていますか?
- 18. Spring Batchはバッチ実行状態をどこに保存しますか?
- 19. コードからの還元された還元状態の保存状態
- 20. ASP.NETキャッシュページ。状態は保存されていますが、リフレッシュが必要です
- 21. IPB4 - グループ名はどこに保存されていますか?
- 22. CloudWatchログデータはどこに保存されていますか?
- 23. コアダンプファイルはどこに保存されていますか?
- 24. memcachedはどこに保存されていますか?
- 25. EventListenerはどこに保存されていますか?
- 26. phonegap - ファイルはどこに保存されていますか?
- 27. gitデータベースファイルはどこに保存されていますか?
- 28. Android:データベースファイルはどこに保存されていますか?
- 29. TortoiseHg拡張はどこに保存されていますか?
- 30. Alfresco PDFプレビューはどこに保存されていますか?
チェックポイントのディレクトリがHDFSまたはS3にある必要がありますか。私が地元の住所を書いた場合、労働者は自分の分を救っているのでしょうか、それとも運転手に送るのでしょうか? – Vale