2009-05-22 2 views
0

すべて、短縮URLをクロールしようとするとWebClientがタイムアウトするのはなぜですか?

私は時にはTwitterをクロールしてURLを引き出す小さなウェブクローラーを持っています。私は.netフレームワークで提供されているWebclientクラスの修正版を使用しています。

通常、これはうまくいきます。たとえbit.lyなどのサイトからのURLが短縮されていても問題ありません。

ただし、次のURLを使用してください。http://is.gd/CioW Webクライアントがタイムアウトしました。

ITSは、ここにリダイレクトするためのもの: http://digg.com/microsoft/Less_Virtual_More_Machine_Windows_7_and_the_magic_of_Boot

あなたは、彼らが特定のクライアントをフィルタリングしていると思いますか?

私はこれをどのように修正できるのか、その理由は何ですか?

答えて

0

プロキシを経由せずに、ネットワークからそのURLをヒットできますか?

ウェブクライアントコントロールはリダイレクトに従っていますか? TinyURLを作成してテストし、Webクライアントがブラウズできるかどうか確認してください。

ブラウザでプロキシを使用する場合は、WebClientコントロールで設定する必要があります。

クライアントがフィルタリングされているかどうかをテストするのは簡単です。たとえば、RequestオブジェクトのUserAgentをFireFoxのUserAgentに設定します。

+0

よろしくお願いします。プロキシがありますが、既にクライアントを設定しています。それは私がそれに投げるすべての他のリンクのために働く。 –

+0

プロキシはコンテンツフィルタリングソフトウェアなどで特定のURLをブロックしていますか? –

+0

サイトが認識できないユーザーエージェントをブロックしているようです。 IE7の文字列に設定するとうまくいきました。使用する安全なユーザーエージェント文字列は何と思いますか? –

関連する問題