スパークジョブでエラーが発生していますが、エラーは通常次のようなものです。クラスター内のノードには約256GBのメモリーと約8個のコアがあります。また、エグゼキューター・メモリーを4GBと4GBのオーバーヘッドとして指定しています。シャッフルについては、メモリの割合を0.5と指定しましたが、これはメモリの問題のようには思えません。しかし、私は何が問題になるかもしれないかを理解することができず、これは1つの段階または別の段階で起こります。私は自分の仕事を複数回転勤しました。まともな構成の200以上のノードのインフラストラクチャがあると仮定できます。スパークヤーン/ tmp該当するファイルやディレクトリがありません
ステージの失敗によりジョブが中止されました:ステージ2.0のタスク0が12回失敗しました。最新の失敗:ステージ2.0(TID 27、lgpbd1107.sgp.ladr.com)でタスク0.11が失われました:java.io.FileNotFoundException: tmp/hadoop-mapr/nm-local-dir/usercache/names/appcache/application_1485048538020_113554/3577094671485456431296_lock(このようなファイルやディレクトリはありません)
問題がアプリケーションやインフラストラクチャに関係しているかどうかはわかりません。誰かが助けてくれますか?
であるあなたは、より手の込んだ---/
yarn.nodemanager.local-dirs
プロパティの変更値を追加異なる間隔で10回の周りに私の仕事を実行し、同様のエラーを得ました。ジョブは20分以内に開始され、失敗します.20分でtmp watchがファイルを削除するのに十分な大きさではないと想定しています。 – user500377