スパークドライバの高可用性

スパークアプリケーションを糸クラスターモードで実行しています。私のドライバは何とか再起動したようです。この結果、最初からすべてのデータを再処理することになります（私はいくつかのテーブルを作成し、いくつかのデータをハッシュしていました。スパークドライバの高可用性

これが起こらないようにする方法と、ドライバの高可用性を導入する方法はありますか？

あなたのドライバが再起動されたという事実は、SparkのHAの解釈です。再始動は、エラーが発生したときにトリガーされます。

あなたはあなたの仕事のconfであなたのHadoopの構成設定への

spark.yarn.maxAppAttempts

パスかかわらず、次のプロパティを使用して試行の量を制御することができます。

2017-12-12 13:27:55

糸を伝えるものがありますか（この特定のキューはアプリケーションマスターにもっと注意を払うことができますか？また、チェックポイントは実際にここで助けにならないと思います） –

エラーの最も一般的な原因はメモリ不足です - 使用可能なメモリの量に合わせてスパークアプリを微調整することが重要です。つまり、スパークドライバに十分なメモリがあり、糸の制限を超えないことを確認します。 –

答えて