0
地理的に異なる場所にいくつかのデスクトップマシンがあります。クライアントごとに、各デスクトップマシンと、データのインデックスが作成される中央サーバーのクローラを作成する必要があります。 Nutchでこのようなクローラを作成することは可能ですか?選択肢はありますか? Pythonベースのクローラーが望ましいでしょう。異なる地域に分散したクローラ
地理的に異なる場所にいくつかのデスクトップマシンがあります。クライアントごとに、各デスクトップマシンと、データのインデックスが作成される中央サーバーのクローラを作成する必要があります。 Nutchでこのようなクローラを作成することは可能ですか?選択肢はありますか? Pythonベースのクローラーが望ましいでしょう。異なる地域に分散したクローラ
Nutchのようなバッファを使用する場合は、Nutch Wikiのスクリプトがあります。これを行う前に、各システムから中央のサーバーにlinkdb、crawldb、およびセグメントを取得するだけで済みます。これらのリソースにリモートでアクセスしようとすると、インデックス作成プロセスに時間がかかると思います。
Nutchは行く方法です – Medorator