Google ChromeのHadoop上でnutch - gloud dataproc

Google Cloud（dataproc）でhadoopを実行しようとすると、以下のエラーが表示されます。私はGoogle ChromeのHadoop上でnutch - gloud dataproc

[email protected]:~/apache-nutch-1.7/build$ hadoop jar /home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.job org.apache.nutch.crawl.Crawl /tmp/testnutch/input/urls.txt -solr http://SOLRIP:8080/solr/ -depth 5 -topN2

16/09/11 17時57分38秒INFOのcrawl.Crawl問題に直面することになる理由を任意のアイデア：クロール-20160911175737 16/09/11 17時57分：クロールがで開始しました： 38情報crawl.Crawl：rootUrlDir = -topN2 16/09/11 17:57:38 INFO crawl.Crawl：threads = 10 16/09/11 17:57:38 INFO crawl.Crawl：depth = 5 16/09/11 17:57:38 INFO クロール：クロール：solrUrl = http://SOLRIP:8080/solr/ 16/09/11 17:57:38 WARN conf.Configuration：クロールを実行できませんでした/ 20160911175738ローカルディレクトリからmapredu ce.cluster.local。 dir 16/09/11 17:57:38 WARN conf.Configuration： mapreduce.cluster.local.dir [0] =/hadoop/mapred/local スレッド "main"の例外例外：プロパティの有効なローカルディレクトリがありません：mapreduce.cluster.local。 dir at org.apache.hadoop.conf.Configuration.getLocalPath（Configuration.java:2302） at org.apache.hadoop.mapred.JobConf.getLocalPath（JobConf.java:569） at org.apache.nutch.crawl .Crawl.run（Crawl.java:123） at org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:70） at org.apache.nutch.crawl.Crawl.main（Crawl.java:55））sun.reflect.DelegatingMethodAccessorImpl.invokeでsun.reflect.NativeMethodAccessorImpl.invoke（NativeMethodAccessorImpl.java:62）でsun.reflect.NativeMethodAccessorImpl.invoke0（ネイティブメソッド）（DelegatingMethodAccessorImpl.java:43）は、Javaでで。 lang.reflect.Method.invoke（Method.java：498） at org.apache.hadoop.util.RunJar.run（RunJar.java:221）org.apache.hadoop.util.RunJar.main（RunJar.java:136）

出典

2016-09-11 Ashwin Aravind

でデフォルトでhadoopグループに属していないユーザーuser、ジョブを実行しているため、この例外を取得、ドライバーはローカルディレクトリにアクセスできません。あなたは、Dataprocが同様に十分な権限で実行するクラスタにSSH'ingなしDataprocジョブAPIを介して提出したい場合は、代わりに

sudo sudo -u mapred hadoop jar \ 
    /home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.job \ 
    org.apache.nutch.crawl.Crawl /tmp/testnutch/input/urls.txt \ 
    -solr http://SOLRIP:8080/solr/ -depth 5 -topN2

：以下を試してみてください

gcloud dataproc jobs submit hadoop --cluster cluster-1 \ 
    --jar apache-nutch-1.7.jar \ 
    org.apache.nutch.crawl.Crawl /tmp/testnutch/input/urls.txt \ 
    -solr http://SOLRIP:8080/solr/ -depth 5 -topN2

出典

2016-09-13 01:53:46

Google ChromeのHadoop上でnutch - gloud dataproc

答えて

関連する問題