誰かが良い拡張可能なオープンソースのWebクローラーを知っていますか？

クローラは、私はHeritrixプロジェクト（http://crawler.archive.org/）を見つけ誰かが良い拡張可能なオープンソースのWebクローラーを知っていますか？

（...など事前パーサ、パーサ、）新しいステップを実施するように、内部プロセスを変更できるようにする拡張可能なアーキテクチャを持っている必要があります。

しかし、他にも素晴らしいプロジェクトがありますか？

2009-06-24 Zanoni

http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –

@LFSRコンサルティング。彼らはさまざまな目的のためです... – Zanoni

Nutchは、フリー・クローラーの場合にできる最高のものです。これはLuceneというコンセプトから成り立っており（企業規模で）、バックエンドによってMapReduce（Googleに似ています）を使用して大規模なデータクエリをサポートしています。素晴らしい製品！私は現在、マンチェスターから新しい（まだリリースされていない）Hadoop in ActionのHadoopについてすべてを読んでいます。あなたがこのルートに行くなら、私はこのタイトルの早いコピーを得るために彼らの技術的なレビューチームに乗ることをお勧めします！

これらはすべてJavaベースです。あなたが.netの人なら（私のような!!）Lucene.NET、Nutch.NET、およびHadoop.NETにもっと興味があるかもしれません。これらはすべてクラスごとで、apiポートからC＃へのAPIです。

出典

2009-06-24 18:00:01

+1とNadoとHadoopの場合、分散型でスケーラブルなソリューションを探しているならば、solrも見ることができます。 –

Nutch.NETの外観から完全に存在しないし、私はそれをダウンロードする方法を見つけることさえできませんでした。 –

Hadoop.NETでも同じですが、ダウンロードするファイルは1つではありません –