2017-01-26 11 views
0

スパークジョブでエラーが発生していますが、エラーは通常次のようなものです。クラスター内のノードには約256GBのメモリーと約8個のコアがあります。また、エグゼキューター・メモリーを4GBと4GBのオーバーヘッドとして指定しています。シャッフルについては、メモリの割合を0.5と指定しましたが、これはメモリの問題のようには思えません。しかし、私は何が問題になるかもしれないかを理解することができず、これは1つの段階または別の段階で起こります。私は自分の仕事を複数回転勤しました。まともな構成の200以上のノードのインフラストラクチャがあると仮定できます。スパークヤーン/ tmp該当するファイルやディレクトリがありません

ステージの失敗によりジョブが中止されました:ステージ2.0のタスク0が12回失敗しました。最新の失敗:ステージ2.0(TID 27、lgpbd1107.sgp.ladr.com)でタスク0.11が失われました:java.io.FileNotFoundException: tmp/hadoop-mapr/nm-local-dir/usercache/names/appcache/application_1485048538020_113554/3577094671485456431296_lock(このようなファイルやディレクトリはありません)

問題がアプリケーションやインフラストラクチャに関係しているかどうかはわかりません。誰かが助けてくれますか?

答えて

0

It is due to the tmpwatch utility,最近アクセスされなかった/tmp/filesをクリーンアップするためにCentOSシステムで毎日実行されます。 NodeManagerサービスでは、ジョブを起動するときにトップレベルhadoop.tmp.dir(デフォルトは/tmp/hadoop-${user.name})を再作成しません。 /etc/cron.daily/tmp-watchに移動し、毎日掃除から、このディレクトリを除外:

オプション-1:

は今、あなたは、2つのオプションがあります。 /tmp/hadoop-mapr/nm-local-dir/filecache

オプション-2:移動

コアsite.xmlのおよび/ hadoop.tmp.dir特性の変化値を追加---デフォルト/tmp/hadoop-${user.name}

又は

あります

yarn-site.xml D私が読んで、デフォルトは${hadoop.tmp.dir}/nm-local-dir

+0

であるあなたは、より手の込んだ---/yarn.nodemanager.local-dirsプロパティの変更値を追加異なる間隔で10回の周りに私の仕事を実行し、同様のエラーを得ました。ジョブは20分以内に開始され、失敗します.20分でtmp watchがファイルを削除するのに十分な大きさではないと想定しています。 – user500377

関連する問題