HTTPBuilder - WebページのHTMLコンテンツを取得するにはどうすればよいですか？

は、私は、WebページのHTMLを抽出する必要が私は次のgetを作り、グルーヴィーでHTTPuilderを使用しています：私は探検するときHTTPBuilder - WebページのHTMLコンテンツを取得するにはどうすればよいですか？

def http = new HTTPBuilder('http://www.google.com/search') 
http.request(Method.GET) { 
requestContentType = ContentType.HTML 
response.success = { resp, reader -> 
    println "resp: " + resp 
    println "READER: " + reader 
} 
response.failure = { resp, reader -> 
    println "Failure" 
} 
}

私が得る応答、同じHTMLが含まれていない私が見ることができますwww.google.com/searchのhtmlソース実際、それはHTMLでもなく、ページのhtmlソースで見ることができる同じ情報を含んでいません。 headers.Accept = 'text/html、application/xhtml + xml、application/xml; q = 0.9,/; q = 0.8'、headers.Accept = 'textなどの異なるヘッダーを設定しようとしました。/html '、ユーザーエージェントの設定など）、結果は同じです。 http builderを使用してwww.google.com/search（または任意のウェブページ）のhtmlを取得するにはどうすればよいですか？

出典

2011-07-25 NachoAsking

なぜhttpBuilderを使用しますか？ httpbuilderは、自動コンテンツの種類によって結果を解析しますので、あなたの代わりに、Webページ

出典

2011-08-22 08:11:02

の内容を抽出するために

def url = "http://www.google.com/".toURL() 

println url.text`

を使用する場合があります。生のHTMLを取得するには、エンティティからテキストを取得してください。

def htmlResult = http.get(uri: url, contentType: TEXT){ resp-> 
    return resp.getEntity().getContent().getText() 
}

出典

2013-01-16 05:07:38

HTTPBuilder - WebページのHTMLコンテンツを取得するにはどうすればよいですか？

答えて

関連する問題