Hadoop(2.5.2)マルチノードクラスタ(AWS EC2マシン)の上にApache Nutch 2.3.1をインストールしました。 Nutchファイルを適切に設定しました(マスターノード上)。私はseed.txtファイル(urlがクロールされる)をmasterからHdfsファイルシステムに移動しました。今度は、次のコマンドを実行してクロールします。Apache Nutchでクロール中のエラー
bin/hadoop jar /home/ubuntu/nutch/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls - 私はエラーを取得しています-depth 1 -topN 5
DIRクロール、
Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:348)
at org.apache.hadoop.util.RunJar.main(RunJar.java:205)
は、私は、Javaがインストールされている - 1.8.0_151。このクロールクラスがこのjavaバージョンに見つかりませんでした。ですから、java1.8をjava1.7に置き換えてください。
この問題をお手伝いします。