私は小さなWebクローラーを構築していますが、誰かが実際の実装(ちょうどクロール、検索、ランキング、分類なし、クロール、キス:)について興味深い情報を持っていたのかどうかは疑問でした。Webクローリング手法に関する情報
私はすでにO'Reilly「Spidering hacks」とNo Starch Press「Webbots、spiders、screen scrapers」を記録しています。これらの本は優れていますが、物事をシンプルに保つ傾向があり、スケーリング、データの保存、並行作業、およびその他の高度なトピックについて詳しく説明していません。もちろん、私は既存のオープンソースクローラのコードを見直すことができましたが、それはもう一方の端にあるでしょう(C++クローラは複雑に見えます...)。私はいくつかの面白い/ aditionnal情報を探しています。
ご協力いただきありがとうございます。