RDDをいくつか準備して、数時間計算しました。私はヤーンを使用します。エグゼクティブが失われ、スパーク(1.6)がソースデータを見逃してしまって狂ってしまうことがあります。 このような状況では、DISKを持続させることができます。RDDをディスク上に残してエグゼキュータの損失から糸を回復する方法
しかし、ディスク上の永続性が非DFSの場所を使用してデータを保存すると、リモート実行者はどのようにそれを読むことができますか?または、YARNがエグゼキュータを特定のノードにスケジュールするまで計算が停止していますか?
おそらく私は間違ったメカニズムを使用し、rdd.checkpoint(hdfs://)はここでより適切ですか?
私は、ジョブが再起動され、ステージ1から再実行されると思います。 – BDR
@BalajiReddy、私はAMと運転手がまだ生きている場合について話します。そのため、仕事は完全に再開されないほど信頼できると予想されます –