2016-09-09 1 views
1

私は、最初の種子がフラットファイルで提供されていることを知っています。しかし、これらのURLはどこに注入されていますか?それはcrawlDBですか?その場合、新しいリンクはクローラによって取得され、crawlDBに保存されますか?システムがシャットダウンしたときに何が起きるのですか?crawlDBは次のナッシュ起動時にリフレッシュされますか?Nutch Generatorは初期リンク用にCrawlDBを使用していますか?

実際には、システムシャットダウンの場合には、どこで終了したかを、nutchがクロールを再開したいと思っています。

答えて

1

はい、注入によって、フラットなシードリストがクロールバーのエントリに変わります。解析ステップで検出された新しいリンクは、更新ステップ中に既存のクロール・バーとマージされます。 Nutchは単独でクロールを再開しません。システムがシャットダウンすると、Nutchスクリプトを再起動する必要があり、実行するアクションは停止した場所によって異なります。

障害が発生した場合に再開する連続クローラが必要な場合は、StormCrawlerを使用する方がよい場合があります。

NutchとStormCrawlerの両方を記述したon from our blogなど、Nutchのチュートリアルがあります。

関連する問題