Webクローリング手法に関する情報

私は小さなWebクローラーを構築していますが、誰かが実際の実装（ちょうどクロール、検索、ランキング、分類なし、クロール、キス:)について興味深い情報を持っていたのかどうかは疑問でした。Webクローリング手法に関する情報

私はすでにO'Reilly「Spidering hacks」とNo Starch Press「Webbots、spiders、screen scrapers」を記録しています。これらの本は優れていますが、物事をシンプルに保つ傾向があり、スケーリング、データの保存、並行作業、およびその他の高度なトピックについて詳しく説明していません。もちろん、私は既存のオープンソースクローラのコードを見直すことができましたが、それはもう一方の端にあるでしょう（C++クローラは複雑に見えます...）。私はいくつかの面白い/ aditionnal情報を探しています。

ご協力いただきありがとうございます。

出典

2009-05-18 kal3v

Webクローラーの実装の詳細については、既存のオープンソースの実装を検討することができます。ここにはOpen Source Crawlers in Javaのリストがあります。これらのプロジェクトのほとんどは非アクティブです。しかし、インターネットアーカイブのクローラHeritixとApache Nutchは、学ぶべきたくさんの成熟したアクティブなプロジェクトです。

出典

2009-06-03 11:54:56 Palimondo

Webクローリング手法に関する情報

答えて

関連する問題