Apache Nutchでクロール中のエラー

Hadoop（2.5.2）マルチノードクラスタ（AWS EC2マシン）の上にApache Nutch 2.3.1をインストールしました。 Nutchファイルを適切に設定しました（マスターノード上）。私はseed.txtファイル（urlがクロールされる）をmasterからHdfsファイルシステムに移動しました。今度は、次のコマンドを実行してクロールします。Apache Nutchでクロール中のエラー

bin/hadoop jar /home/ubuntu/nutch/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls - 私はエラーを取得しています-depth 1 -topN 5

DIRクロール、

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl 
     at java.net.URLClassLoader.findClass(URLClassLoader.java:381) 
     at java.lang.ClassLoader.loadClass(ClassLoader.java:424) 
     at java.lang.ClassLoader.loadClass(ClassLoader.java:357) 
     at java.lang.Class.forName0(Native Method) 
     at java.lang.Class.forName(Class.java:348) 
     at org.apache.hadoop.util.RunJar.main(RunJar.java:205)

は、私は、Javaがインストールされている - 1.8.0_151。このクロールクラスがこのjavaバージョンに見つかりませんでした。ですから、java1.8をjava1.7に置き換えてください。

この問題をお手伝いします。

出典

2017-12-09 Sai Sri Krishna Kotha

クラスorg.apache.nutch.crawl.Crawlは、何年も前から削除されています。代わりにシェルスクリプトのbin/crawlを実行することをお勧めします。注入、生成、取得、解析など、クロールのすべてのステップでHadoopジョブを起動します。また、bin/nutchを使用して各ステップを実行することもできます（cf. https://wiki.apache.org/nutch/Nutch2Tutorial

出典

2017-12-10 17:25:49

Apache Nutchでクロール中のエラー

答えて

関連する問題