クローラは、私はHeritrixプロジェクト(http://crawler.archive.org/)を見つけ誰かが良い拡張可能なオープンソースのWebクローラーを知っていますか?
(...など事前パーサ、パーサ、)新しいステップを実施するように、内部プロセスを変更できるようにする拡張可能なアーキテクチャを持っている必要があります。
しかし、他にも素晴らしいプロジェクトがありますか?
クローラは、私はHeritrixプロジェクト(http://crawler.archive.org/)を見つけ誰かが良い拡張可能なオープンソースのWebクローラーを知っていますか?
(...など事前パーサ、パーサ、)新しいステップを実施するように、内部プロセスを変更できるようにする拡張可能なアーキテクチャを持っている必要があります。
しかし、他にも素晴らしいプロジェクトがありますか?
Nutchは、フリー・クローラーの場合にできる最高のものです。これはLuceneというコンセプトから成り立っており(企業規模で)、バックエンドによってMapReduce(Googleに似ています)を使用して大規模なデータクエリをサポートしています。素晴らしい製品!私は現在、マンチェスターから新しい(まだリリースされていない)Hadoop in ActionのHadoopについてすべてを読んでいます。あなたがこのルートに行くなら、私はこのタイトルの早いコピーを得るために彼らの技術的なレビューチームに乗ることをお勧めします!
これらはすべてJavaベースです。あなたが.netの人なら(私のような!!)Lucene.NET、Nutch.NET、およびHadoop.NETにもっと興味があるかもしれません。これらはすべてクラスごとで、apiポートからC#へのAPIです。
+1とNadoとHadoopの場合、分散型でスケーラブルなソリューションを探しているならば、solrも見ることができます。 –
Nutch.NETの外観から完全に存在しないし、私はそれをダウンロードする方法を見つけることさえできませんでした。 –
Hadoop.NETでも同じですが、ダウンロードするファイルは1つではありません –
私は最近、Nutchと呼ばれるものを発見しました。
あなたがプラットフォームに縛られていない場合、私は過去にNutchで非常に良い経験をしています。
これはJavaで書かれており、Luceneインデクサーと提携しています。
また、あなたのクローラを指定して実行するのは本当に簡単ですScrapy http://scrapy.org/
を試してみたいことがあります。
アボットは、優れた拡張可能なWebクローラーです。アーキテクチャのすべての部分がプラガブルで、その動作を完全に制御できます。 C#で書かれた商用および個人用のオープンソースです。
http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –
@LFSRコンサルティング。彼らはさまざまな目的のためです... – Zanoni