2017-10-17 7 views
0

Nutchでクロールする際に問題が発生しています。私はhereからチュートリアルに従ってもエラーで:ウィンドウでNutchを使用する

" /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl 
Failed with exit value 1. 
" 

誰もがウィンドウに正しくNutchの使用方法を参照するために私のための指針を提供することはできますか?

答えて

0

バージョンの競合や弱いオンライン参照のために、HbaseまたはMongoDBのいずれかを使用してApache Nutchをセットアップしようとして何度も失敗しました。私はむしろDockerFileを使ってセットアップを手助けすることをお勧めします。画像を読み込むためにDockerを使用することもできますし、Nutchをローカルに設定するには、動作中のDockerFileのすべてのコマンドに従ってください。このようなDockerFileのexampleをご利用ください。

成功したセットアップした後、あなたが使用してクロールすることができます:

[NUTCH_DIRECTORY]/bin/crawl -i -s seed.txt crawldata <NUM_ROUNDS> 

これは完全なクロールプロセスを実行します(解析と生成、フェッチ、注入)。

あなたは、このコマンドを実行することによって解析されたコンテンツを視聴することがあります。

./nutch readlinkdb data/linkdb/ -dump out 
cat out/part-00000 

は、この情報がお役に立てば幸い!

関連する問題