2017-03-08 16 views
0

私はNutchを新しくしていて、ウェブサイトをクロールしたい。私はNutch 1.12を使用しています。私は盲目的に上記の手順に従いました。here

私はapache-nutch-1.12-bin.zipをダウンロードして解凍しました。 cygwinを使用して私は最初のウェブサイトをクロールしようとしています。私はちょうど上記のページのステップに従った。

私はURLと呼ばれるディレクトリを作成しました。その中にseed.txtを作成し、http://nutch.apache.org/を含めました。

ここでbin/nutchコマンドを実行してクロール/クロールURLを挿入したいが、以下の例外が発生する。

コーラ@ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin $ ./nutch注入クロール/ crawldbのURL インジェクター:2017年3月8日午前14時31分17秒 インジェクターから始まる:crawlDb :クロール/クロウドブ 注入器:urlDir:URL 注入器:注入されたURLをクロールデータベースエントリに変換します。 インジェクタ:org.apache.hadoop.fs.FileAlreadyExistsException:親パスはディレクトリではありません:クロール at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:409) at org.apache.hadoop.fs .RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:413) at org.apache.hadoop.fs.ChecksumFileSystem.mkdirs(ChecksumFileSystem.java:584) at org.apache.nutch.crawl.Injector.inject(Injector.java:350) ) at org.apache.nutch.crawl.Injector.run(Injector.java:467) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.crawl .Injector.main(Injector.java:441)

この問題を解決してください

+0

cygwinではなく、Linuxで試してみてください。 Oracle VirtualBoxを使用してWindows上でUbuntuを実行することができます。 –

答えて

0

私は同じ問題がありました。

urlディレクトリを "-p"引数で作成しましたか?

私がしたとき、問題は解決されました。

最高の運があります。

関連する問題