2011-07-03 4 views
0

地理的に異なる場所にいくつかのデスクトップマシンがあります。クライアントごとに、各デスクトップマシンと、データのインデックスが作成される中央サーバーのクローラを作成する必要があります。 Nutchでこのようなクローラを作成することは可能ですか?選択肢はありますか? Pythonベースのクローラーが望ましいでしょう。異なる地域に分散したクローラ

+0

Nutchは行く方法です – Medorator

答えて

1

Nutchのようなバッファを使用する場合は、Nutch Wikiのスクリプトがあります。これを行う前に、各システムから中央のサーバーにlinkdb、crawldb、およびセグメントを取得するだけで済みます。これらのリソースにリモートでアクセスしようとすると、インデックス作成プロセスに時間がかかると思います。

関連する問題