ドライバの再起動時にsparkのDAG全体が高可用性(つまり、糸クラスターモードのデフォルトのHA)からゼロから再計算されないようにするにはどうすればよいですか。ドライバの再起動後にDAGが再計算されないようにするにはどうすればよいですか?
現在、私は、これは複数のテーブルに対して実行されHDFS
に複数の小さなジョブすなわち
- 読み取りTABLE1
- ハッシュ一部の列
- 書き込みを編成するために火花を使用しています。 ドライバが再起動されると、つまり2番目のテーブルで作業しているときに、最初のものが再処理されます。すでに正常に保存されています。
チェックポインティングのデフォルトのメカニズム(生の入力値)は意味をなさないと思います。 良い解決策は何でしょうか? (小)構成情報をチェックポイントでき、まだ計算されていないものだけを再処理することはできますか?