2017-12-09 11 views
0

Hadoop(2.5.2)マルチノードクラスタ(AWS EC2マシン)の上にApache Nutch 2.3.1をインストールしました。 Nutchファイルを適切に設定しました(マスターノード上)。私はseed.txtファイル(urlがクロールされる)をmasterからHdfsファイルシステムに移動しました。今度は、次のコマンドを実行してクロールします。Apache Nutchでクロール中のエラー

bin/hadoop jar /home/ubuntu/nutch/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls - 私はエラーを取得しています-depth 1 -topN 5

DIRクロール、

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl 
     at java.net.URLClassLoader.findClass(URLClassLoader.java:381) 
     at java.lang.ClassLoader.loadClass(ClassLoader.java:424) 
     at java.lang.ClassLoader.loadClass(ClassLoader.java:357) 
     at java.lang.Class.forName0(Native Method) 
     at java.lang.Class.forName(Class.java:348) 
     at org.apache.hadoop.util.RunJar.main(RunJar.java:205) 

は、私は、Javaがインストールされている - 1.8.0_151。このクロールクラスがこのjavaバージョンに見つかりませんでした。ですから、java1.8をjava1.7に置き換えてください。

この問題をお手伝いします。

答えて

3

クラスorg.apache.nutch.crawl.Crawlは、何年も前から削除されています。代わりにシェルスクリプトのbin/crawlを実行することをお勧めします。注入、生成、取得、解析など、クロールのすべてのステップでHadoopジョブを起動します。また、bin/nutchを使用して各ステップを実行することもできます(cf. https://wiki.apache.org/nutch/Nutch2Tutorial

関連する問題