2016-07-27 25 views
1

ありがとうございました。 提供されているHadoopの例を使用して糸ジョブを実行しています。ジョブは完了せず、「受け入れられた」状態にとどまります。何が印刷されているかを見ると、ジョブが完了するのを待っているように見えます。クライアントはジョブの状態を継続的に調査しています。ヤーンジョブは「状態:受諾済み」になりません。

(Hadoopの2.6.0から)例ジョブ:

spark-submit --master yarn-client --driver-memory 4g --executor-memory 2g --executor-cores 4 --class org.apache.spark.examples.SparkPi /home/john/spark/spark-1.6.1-bin-hadoop2.6/lib/spark-examples-1.6.1-hadoop2.6.0.jar 100 

出力:

.... 
.... 
disabled; ui acls disabled; users with view permissions: Set(john); users with modify permissions: Set(jogn) 
16/07/27 17:36:09 INFO yarn.Client: Submitting application 1 to ResourceManager 
16/07/27 17:36:09 INFO impl.YarnClientImpl: Submitted application application_1469665943738_0001 
16/07/27 17:36:10 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:10 INFO yarn.Client: 
     client token: N/A 
     diagnostics: N/A 
     ApplicationMaster host: N/A 
     ApplicationMaster RPC port: -1 
     queue: default 
     start time: 1469666169333 
     final status: UNDEFINED 
     tracking URL: http://cpt-bdx021:8088/proxy/application_1469665943738_0001/ 
     user: john 
16/07/27 17:36:11 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:12 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:13 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:14 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:15 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:16 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:17 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:18 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:19 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:20 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:21 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
16/07/27 17:36:22 INFO yarn.Client: Application report for application_1469665943738_0001 (state: ACCEPTED) 
........... 
........... 
........... 

UPDATE(ジョブのResourceManagerに提出されたように見える - それゆえ "受け入れられましたが、ResourceManagerはノードやハープープの作業者に実際にジョブを渡すことはありません):

$ jps 
jps 
12404 Jps 
12211 NameNode 
12315 DataNode 
11743 ApplicationHistoryServer 
11876 ResourceManager 
11542 NodeManager 

$ yarn node -list 
     16/07/27 23:07:53 INFO client.RMProxy: Connecting to ResourceManager at /192.168.0.5.55:8032 
     Total Nodes:0 
       Node-Id    Node-State Node-Http-Address  Number-of-Running-Containers 

UPDATEは(2):I側として、私は私がhadoopユーザまたはhadoop`ユーザーを持っていないことを言及したいと思い、また

yarn.nodemanager.linux-container-executor.group=#configured value of yarn.nodemanager.linux-container-executor.group 
banned.users=#comma separated list of users who can not run applications 
min.user.id=1000#Prevent other super-users 
allowed.system.users=##comma separated list of system users who CAN run applications 

:私はデフォルトetc/container-executor.cfg fileを使用していますグループ。私はシステムにログオンしたデフォルトのアカウントを使用しています。それが問題ならば。ありがとう!


UPDATE(3):それは(状態ACCEPTEDから)走行状態になったことがないので、あなたの仕事は完了していない飽きない理由

org.apache.hadoop.yarn.client.RMProxy: Connecting to ResourceManager at 192.168.0.5.55:8031 
2016-07-28 00:23:26,083 INFO org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Sending out 0 NM container statuses: [] 
2016-07-28 00:23:26,087 INFO org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Registering with RM using containers :[] 
2016-07-28 00:23:26,233 INFO org.apache.hadoop.yarn.server.nodemanager.security.NMContainerTokenSecretManager: Rolling master-key for container-tokens, got key with id -160570002 
2016-07-28 00:23:26,236 INFO org.apache.hadoop.yarn.server.nodemanager.security.NMTokenSecretManagerInNM: Rolling master-key for container-tokens, got key with id -1876215653 
2016-07-28 00:23:26,237 INFO org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Registered with ResourceManager as 192.168.0.5.55:53034 with total resource of <memory:8192, vCores:8> 
2016-07-28 00:23:26,237 INFO org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Notifying ContainerManager to unblock new container-requests 
+0

サンドボックスで実行していますか? Yarn Resource Managerを開き、実行可能なジョブの状態とコンテナの数を確認しますか? UはJavaメモリーを増やす必要があります。 – yoga

+0

私は問題をReourceManagerに絞り込み、ノードを見つけることができないと考えています。 'yarn node -list'は' 0 total nodes'を示します。上記の質問を更新しました。 – nikk

+0

@yoga、コンテナの数は「0」です。 – nikk

答えて

0

を記録ノードマネージャ理由です。スケジューラは、どのアプリケーションがリソースを取得し、それによって実行中であることをスケジュールするかを管理します。

フェアスケジューラとキャパシティスケジューラの2つのスケジューラがあります。詳細については、Hadoop Yarnのドキュメントを参照してください。あなたがyarn-site.xml、capacity-scheduler.xml、およびfair-scheduler.xmlファイルを提供できるなら、私はあなたにもっと良い助けを与えるでしょう:)。

0

最も一般的な可能性は、ジョブを送信しているキューに、要求しているリソースがないことです。

典型的な問題であってもよい。

  • リソース要件(メモリおよび/またはコア)。あなたはそれが割り当てることができるより多くのメモリ/コアを求めています。これは、クラスタがほぼ完全に使用されているか、設定が一貫していないことが原因です。 this pageの詳細

  • ディスク容量。ノードスペースをチェックすると、アプリケーションの実行を停止させるヘルスチェックがあります。マルチキュー/マルチテナント環境では

    yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage 
    
  • 、キューごとのハードリソース制限がある場合は、あなたのアプリケーションは、これらを打つことができます。設定を増やしたり、リソースを増やして別のキューでテストしたりすることができます。

関連する問題