Nutch 1.4/Solr 4.10を実行して、多数のサイトのインデックスを作成しています。私のクロールには数百のリンクを持ついくつかのシードページが含まれています。現在実行中ですnutchのクロールでは、-topNと-depthの値を小さくすると、同じページをすべてクロールしますか?
-topN 400 -depth 20
これらの設定では、クロールを完了するのに5〜7時間かかります。 "nutch crawl"の個々の反復には時間がかかりませんが、すべてのページが最終的にクロールされるようにする必要があります。 -topNまたは-depthの値を小さくしても、すべてのページがクロールされることを確認できますか?
クロールがタイムクリティカルである場合は、StormCrawlerを参照してください。バッチで動作するNutchとは異なり、SCは継続的に稼働し、サーバのリソースをより有効に活用します。 Nutchはこれらの操作を交互に行うのに対し、常にフェッチ、解析、更新します。 –