どのように実行するか$ ./nutchはクロール/クロールURLを挿入する

私はNutchを新しくしていて、ウェブサイトをクロールしたい。私はNutch 1.12を使用しています。私は盲目的に上記の手順に従いました。here

私はapache-nutch-1.12-bin.zipをダウンロードして解凍しました。 cygwinを使用して私は最初のウェブサイトをクロールしようとしています。私はちょうど上記のページのステップに従った。

私はURLと呼ばれるディレクトリを作成しました。その中にseed.txtを作成し、http://nutch.apache.org/を含めました。

ここでbin/nutchコマンドを実行してクロール/クロールURLを挿入したいが、以下の例外が発生する。

コーラ@ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin $ ./nutch注入クロール/ crawldbのURL インジェクター：2017年3月8日午前14時31分17秒インジェクターから始まる：crawlDb ：クロール/クロウドブ注入器：urlDir：URL 注入器：注入されたURLをクロールデータベースエントリに変換します。インジェクタ：org.apache.hadoop.fs.FileAlreadyExistsException：親パスはディレクトリではありません：クロール at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs（RawLocalFileSystem.java:409） at org.apache.hadoop.fs .RawLocalFileSystem.mkdirs（RawLocalFileSystem.java:413） at org.apache.hadoop.fs.ChecksumFileSystem.mkdirs（ChecksumFileSystem.java:584） at org.apache.nutch.crawl.Injector.inject（Injector.java:350）） at org.apache.nutch.crawl.Injector.run（Injector.java:467） at org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:70） at org.apache.nutch.crawl .Injector.main（Injector.java:441）

この問題を解決してください

出典

2017-03-08 CHOLA

cygwinではなく、Linuxで試してみてください。 Oracle VirtualBoxを使用してWindows上でUbuntuを実行することができます。 –

私は同じ問題がありました。

urlディレクトリを "-p"引数で作成しましたか？

私がしたとき、問題は解決されました。

最高の運があります。

出典

2017-03-10 03:38:46

どのように実行するか$ ./nutchはクロール/クロールURLを挿入する

答えて

関連する問題