2009-06-24 10 views
14

クローラは、私はHeritrixプロジェクト(http://crawler.archive.org/)を見つけ誰かが良い拡張可能なオープンソースのWebクローラーを知っていますか?

(...など事前パーサ、パーサ、)新しいステップを実施するように、内部プロセスを変更できるようにする拡張可能なアーキテクチャを持っている必要があります。

しかし、他にも素晴らしいプロジェクトがありますか?

+0

http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –

+0

@LFSRコンサルティング。彼らはさまざまな目的のためです... – Zanoni

答えて

14

Nutchは、フリー・クローラーの場合にできる最高のものです。これはLuceneというコンセプトから成り立っており(企業規模で)、バックエンドによってMapReduce(Googleに似ています)を使用して大規模なデータクエリをサポートしています。素晴らしい製品!私は現在、マンチェスターから新しい(まだリリースされていない)Hadoop in ActionのHadoopについてすべてを読んでいます。あなたがこのルートに行くなら、私はこのタイトルの早いコピーを得るために彼らの技術的なレビューチームに乗ることをお勧めします!

これらはすべてJavaベースです。あなたが.netの人なら(私のような!!)Lucene.NETNutch.NET、およびHadoop.NETにもっと興味があるかもしれません。これらはすべてクラスごとで、apiポートからC#へのAPIです。

+0

+1とNadoとHadoopの場合、分散型でスケーラブルなソリューションを探しているならば、solrも見ることができます。 –

+4

Nutch.NETの外観から完全に存在しないし、私はそれをダウンロードする方法を見つけることさえできませんでした。 –

+0

Hadoop.NETでも同じですが、ダウンロードするファイルは1つではありません –

0

私は最近、Nutchと呼ばれるものを発見しました。

0

あなたがプラットフォームに縛られていない場合、私は過去にNutchで非常に良い経験をしています。

これはJavaで書かれており、Luceneインデクサーと提携しています。

4

また、あなたのクローラを指定して実行するのは本当に簡単ですScrapy http://scrapy.org/

を試してみたいことがあります。

1

アボットは、優れた拡張可能なWebクローラーです。アーキテクチャのすべての部分がプラガブルで、その動作を完全に制御できます。 C#で書かれた商用および個人用のオープンソースです。

https://github.com/sjdirect/abot

関連する問題