2016-07-09 8 views
0

Javaの解析済みWebページからHTTPヘッダーを削除する必要があります。JavaのCURL応答からHTTPヘッダーを削除する方法

HTTP/1.1 404 Not Found 
    Date: Wed, 28 Oct 2009 14:10:05 GMT 
    Server: Apache/2.2.11 (Unix) mod_ssl/2.2.11 OpenSSL/0.9.8i DAV/2 mod_auth_passthrough/2.1 mod_bwlimited/1.4 FrontPage/5.0.2.2635 
    Last-Modified: Tue, 02 Jun 2009 17:40:52 GMT 
    ETag: "18ac11-d16-46b610b465100" 
    Accept-Ranges: bytes 
    Content-Length: 3350 
    Connection: close 
    Content-Type: text/html 
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> 
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"> 
<head profile="http://gmpg.org/xfn/11"> 
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 

上記のように、最初の数行はhttpヘッダーです。 解析されたページを処理するためにそれらを取り除く必要がありますが、ヘッダーの長さと内容が異なるため、どのように処理するかわかりません。

誰でも私に手伝ってください。

+0

ヒント:HTTPヘッダーの末尾が「\ r \ n \ r \ n」 – tkausl

+0

データの読み取りにCURLを使用する必要がありますか? –

+0

ありがとうございます。しかし、文字列には\ r \ n \ r \ nという文字列を取り除くことはできません。正規表現の使用中にコンテンツの一部が失われるのを避けることはできますか? –

答えて

0

たとえば、 <htmlとこのStringの部分文字列です。

+0

WebページではTrueですが、解析されたコンテンツの一部はイメージ(生のバイト)で、HTMLタグはありません。私は最初に\ r \ n \ r \ nを解析することでそれを行うことができました –