2011-12-15 22 views
0

ウェブクローラーに取り組んでいる間、私は、次のWebページを含むこの奇妙な発生に出くわし:このページをダウンロードするためにwgetのを使用する場合は、ステータスコード200が返されhttp://abudhabitourism.ae/en/奇妙な自動HTTPリダイレクト(302コード)

とすべては順調です。

http://sso.adta.ae/opensso/TacCDSSO?localServlet=http%3a%2f%2fabudhabitourism.ae%2f%2fcdsso.ashx&paramName=result&gotoURL=http%3a%2f%2fabudhabitourism.ae%2fen%2fdefault.aspx

はしかし、私のクローラープログラムの要求ページ(GETリクエスト)、サーバは、「移動-に」ロケーション・ヘッダーのフィールド奇妙に見えるとステータスコード302を返すように見えます

これは実際にはURLかスクリプトですか?私は私のクローラープログラムでこのケースを扱うことができる方法上の任意のアイデアは

おかげで、 教授シラズBenAbdelkaderを

答えて

0

私は思う(つまり、自動的に正しい移動-する場所のヘッダからURLを抽出することができるようにする)wgetの302からのリダイレクトに従います。curlを使用してページを取得すると、302のヘッダーとフォローアップするURLが返されます。

curl -iI http://abudhabitourism.ae/en/ 
+0

wgetが実行しているものである必要があります。しかし、私の主な問題は、奇妙に見える移動のURLです。カールで同じことをしますか? –

+0

私は現在、私はLinuxマシンにアクセスできないと付け加えるべきです。 –

+0

のiMac - バン・ステファン:〜ステファン$カール-II http://abudhabitourism.ae/en/ HTTP/1.1 302見つかり のCache-Control:プライベート のContent-Length:298 のContent-Type:text/htmlの。 charset = utf-8 場所:http://sso.adta.ae/opensso/TacCDSSO?localServlet=http%3a%2f%2fabudhabitourism.ae%2f%2fcdsso.ashx¶mName=result&gotoURL=http%3a%2f%2fabudhabitourism ae%2fen%2fdefault.aspx サーバー:Microsoft-IIS/7.5 X-AspNet-バージョン:2.0.50727 Set-Cookie:ASP.NET_SessionId = muilyp55knx54k45ypy5iq55;パス= /; HttpOnly X-Powered-By:ASP.NET 日付:2012年3月5日(月)16:20:10 GMT – stephangroen