すべて、短縮URLをクロールしようとするとWebClientがタイムアウトするのはなぜですか?
私は時にはTwitterをクロールしてURLを引き出す小さなウェブクローラーを持っています。私は.netフレームワークで提供されているWebclientクラスの修正版を使用しています。
通常、これはうまくいきます。たとえbit.lyなどのサイトからのURLが短縮されていても問題ありません。
ただし、次のURLを使用してください。http://is.gd/CioW Webクライアントがタイムアウトしました。
ITSは、ここにリダイレクトするためのもの: http://digg.com/microsoft/Less_Virtual_More_Machine_Windows_7_and_the_magic_of_Boot
あなたは、彼らが特定のクライアントをフィルタリングしていると思いますか?
私はこれをどのように修正できるのか、その理由は何ですか?
よろしくお願いします。プロキシがありますが、既にクライアントを設定しています。それは私がそれに投げるすべての他のリンクのために働く。 –
プロキシはコンテンツフィルタリングソフトウェアなどで特定のURLをブロックしていますか? –
サイトが認識できないユーザーエージェントをブロックしているようです。 IE7の文字列に設定するとうまくいきました。使用する安全なユーザーエージェント文字列は何と思いますか? –