私はクローラで作業しており、リンク "http://devonline.com/"をダウンロードしようとしています。私は同じリンク上でリダイレクトとコード301を得るすべての時間。リダイレクトを回避する方法
このリダイレクトを回避してコンテンツを取得する方法を教えてください。あなたがすることはできません
String request
= "GET " + file
+ (file.endsWith("robots.txt") ? " HTTP/1.0\r\n" : " HTTP/1.1\r\n")
// " HTTP/1.1\r\n"
+ "User-Agent: " + CrawlerConfig.USER_AGENT + "\r\n"
// + ((!CrawlerConfig.SAVE_IMAGES) ? "Accept: text/html\r\n" : "")
// + "Accept: text/*\r\n"
+ (file.endsWith("robots.txt") ? "Connection: close\r\n" : "")
+ "Host: " + host + "\r\n" + "\r\n"/*
* + body
*/;
outStream.write(request.getBytes("US-ASCII"));
outStream.flush();
を扱っていますか?それがリダイレクトの場合、有用な応答本文のコンテンツはありません。 –
devonline.comは、本物のブラウザから来たように見えない要求に対する応答を拒否するために、サーバ設定でルールを取得する可能性が最も高いです。 –
リダイレクトを "回避"しないでください。それに従います! – Chris