ショッピング比較エンジンを構築しており、毎日のデータ収集プロセスを実行するためにクロールエンジンを構築する必要があります。C#の優れたオープンソースWebクロールフレームワーク
私はC#でクローラを構築することに決めました。私はHttpWebRequest/HttpWebResponseクラスについて多くの悪い経験をしており、大きなクロールではバグが多く、不安定であることが知られています。だから、私はそれらの上に構築しないことに決めました。フレームワーク4.0でも、バグがあります。
私は自分の個人的な経験によって話します。
非常に安定した非常に堅牢なライブラリであるjavaやnutch、apacheなどのオープンソースのクロールフレームワークについて知っていれば、クローラをコーディングしているエキスパートの意見が欲しいです。
C#に既に既存のクロールフレームワークがある場合は、その上にアプリケーションを構築します。
コードプロジェクトからこのソリューションを拡張して拡張する予定がない場合は、
http://www.codeproject.com/KB/IP/Crawler.aspx
いずれかが私に、より良いパスを提案することができる場合、私は本当に感謝しなければなりません。
EDIT:非常に複雑なJavaスクリプトを使用してクロールする必要があるサイトによっては、JavaScriptでレンダリングされたページをクロールできるようにする必要があるため、ウェブクローラが複雑になりました。誰かがJavaScriptをレンダリングできるC#でライブラリを使用している場合は、共有してください。私は好きではないwatinを使いました。またセレンについても知っています。これら以外のことが分かっている場合は、私とコミュニティと共有してください。
HttpWebRequestはどのようにバグですか? – SLaks
'SELECT'は壊れていません。 – neo2862
http://htmlagilitypack.codeplex.com/ –