EMRにスパークジョブを送信するときにファイルが見つかりません

ローカルスタンドアロンモードで正常に動作するスパークジョブがあります。私たちは、次の火花提出オプションで「クラスタ」モードでジョブをサブミットしているEMRにスパークジョブを送信するときにファイルが見つかりません

java.io.FileNotFoundException: File does not exist: hdfs://ip.us-west-2.compute.internal:8020/user/hadoop/.sparkStaging/application_1470941709244_0001/__spark_libs__3533384422462530422.zip 
    at org.apache.hadoop.hdfs.DistributedFileSystem$22.doCall(DistributedFileSystem.java:1309) 
    at org.apache.hadoop.hdfs.DistributedFileSystem$22.doCall(DistributedFileSystem.java:1301) 
    at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81) 
    at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1301) 
    at org.apache.hadoop.yarn.util.FSDownload.copy(FSDownload.java:253) 
    at org.apache.hadoop.yarn.util.FSDownload.access$000(FSDownload.java:63) 
    at org.apache.hadoop.yarn.util.FSDownload$2.run(FSDownload.java:361) 
    at org.apache.hadoop.yarn.util.FSDownload$2.run(FSDownload.java:359) 
    at java.security.AccessController.doPrivileged(Native Method) 
    at javax.security.auth.Subject.doAs(Subject.java:422) 
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657) 
    at org.apache.hadoop.yarn.util.FSDownload.call(FSDownload.java:358) 
    at org.apache.hadoop.yarn.util.FSDownload.call(FSDownload.java:62) 
    at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 
    at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
    at java.lang.Thread.run(Thread.java:745) 

Failing this attempt. Failing the application. 
    ApplicationMaster host: N/A 
    ApplicationMaster RPC port: -1 
    queue: default 
    start time: 1470941880009 
    final status: FAILED 
    tracking URL: http://ip.us-west-2.compute.internal:8088/cluster/app/application_1470941709244_0001 
    user: hadoop 
Exception in thread "main" org.apache.spark.SparkException: Application application_1470941709244_0001 finished with failed status 
    at org.apache.spark.deploy.yarn.Client.run(Client.scala:1132) 
    at org.apache.spark.deploy.yarn.Client$.main(Client.scala:1175) 
    at org.apache.spark.deploy.yarn.Client.main(Client.scala) 
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
    at java.lang.reflect.Method.invoke(Method.java:498) 
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:729) 
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:185) 
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:210) 
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:124) 
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

：我々は（2.0、Hadoopの2.7.2の火付け役）AWS EMR-5.0にそれを提出していると、次のエラーを受けています。 --class com.company.project.Preprocessを実行し、S3にjarを格納します。誰でもこのエラーを引き起こしている可能性があることを知っていますか？

出典

2016-08-15 cscan

を次のようにあなたは、あなたが使用しているコマンドラインを提供することができますSparkContextを定義することができます。 resourcemanagerのapplicationmasterログを調べて、実際の原因を調べます。 – vgunnu

今度はハイブと同じです。 ROOT_INPUT_INIT_FAILURE、頂点入力：table_name初期化子が失敗した、頂点= vertex_1477548354340_0005_1_00 [Map 1]、java.io.FileNotFoundException：[頂点の頂点_1477548354340_0005_1_00、[頂点1]ファイルs3：//xxxxxxxxxxxxxx/hive-staging_hive_2016-10-27_06-39-28_782_4281514594079978733-1/-ext-10000は存在しません – jackStinger

どのようにトリガーしていますか？ – FaigB

JDKバージョンの不一致のようです。あなたは、Java 7サポートやJava 8

のためのEMRの設定の下にあなたが適切SparkContext定義されているかどうか

[ 
    { 
     "Classification": "hadoop-env", 
     "Configurations": [ 
      { 
       "Classification": "export", 
       "Configurations": [], 
       "Properties": { 
        "JAVA_HOME": "/usr/lib/jvm/java-1.8.0" 
       } 
      } 
     ], 
     "Properties": {} 
    }, 
    { 
     "Classification": "spark-env", 
     "Configurations": [ 
      { 
       "Classification": "export", 
       "Configurations": [], 
       "Properties": { 
        "JAVA_HOME": "/usr/lib/jvm/java-1.8.0" 
       } 
      } 
     ], 
     "Properties": {} 
    } 
]

出典

2017-06-14 07:09:45

チェックを設定EMRで実行されているかどうかを確認してください。クラスタモードでデプロイしようとしているときに、オプションマスターを設定しないでください。

val sc = new SparkContext(new SparkConf().setAppName("ApplicationName"))

出典

2018-01-04 11:38:42

EMRにスパークジョブを送信するときにファイルが見つかりません

答えて

関連する問題