プロジェクトの開始段階にあり、現在はどのクローラが私たちにとって最良の選択であるかについては が不思議です。イメージクロールに最適なオープンソースの拡張可能なクローラ
私たちのプロジェクトは:
基本的に、我々は、Hadoopのを設定し、画像のためのウェブをクロールするつもりです。 次に、HadoopのMap/Reduce機能に基づいて、HDFS に保存されている画像に対して独自のインデックスソフトウェアを実行します。私たちは他のインデックスを使用しません 私たち自身よりも。
いくつかの特定の質問:
- クローラは最高のイメージのクロール処理されますか?
- は多数のサーバーを一緒にクロールする分散クロールシステムに最適なクローラはどれですか?
今、これらは3最良のオプション -
- Nutchのように見える:スケールに知られています。テキスト検索ソフトウェアと密接に結びついているように思われるので、最良の選択肢のようには見えません。
- Heritrix:また、スケール。これは現在、最良の選択肢のように見えます。
- Scrapy:大規模で使用されていません。 URL正規化のような基本的なものがあるかどうかはわかりません。私はこれをPythonフレームワーク(私はPythonの方がJavaより好きなので)を使いたいですが、Webクローラーの高度な機能を実装しているかどうかはわかりません。
概要:
私たちは、ウェブからできるだけ多くの画像を取得する必要があります。どちらの既存のクロールフレームワークもスケーラブルで効率的ですが、イメージのみを取得するために変更するのが最も簡単なフレームワークですか?
ありがとうございます!