2016-10-11 7 views
0

Nutch 1.4/Solr 4.10を実行して、多数のサイトのインデックスを作成しています。私のクロールには数百のリンクを持ついくつかのシードページが含まれています。現在実行中ですnutchのクロールでは、-topNと-depthの値を小さくすると、同じページをすべてクロールしますか?

-topN 400 -depth 20 

これらの設定では、クロールを完了するのに5〜7時間かかります。 "nutch crawl"の個々の反復には時間がかかりませんが、すべてのページが最終的にクロールされるようにする必要があります。 -topNまたは-depthの値を小さくしても、すべてのページがクロールされることを確認できますか?

答えて

0

深度を変更すると、深さと同じであることが多い反復回数ですが、必ずしも同じではありませんが、クロールが反復処理を停止すると、フェッチするURLはこれ以上ありません。上位NはセグメントあたりのURLの総数を制限します。低い値を設定すると繰り返し回数は増えますが、全体としてはクロールにかかる時間に影響しません。

クロールの速度に影響する多くの要因がありますが、それは単なるホストの多様性と礼儀の問題です。 Nutchを擬似分散モードで実行し、Hadoop UIを使用してどのステップに時間がかかり、そこから取得するかを理解することをお勧めします。

PS:それはNutchの非常に古いバージョンです。もっと最近のものにアップグレードする時間は?

+0

クロールがタイムクリティカルである場合は、StormCrawlerを参照してください。バッチで動作するNutchとは異なり、SCは継続的に稼働し、サーバのリソースをより有効に活用します。 Nutchはこれらの操作を交互に行うのに対し、常にフェッチ、解析、更新します。 –

関連する問題