2012-02-19 24 views
1

この質問は愚かだと思うかもしれませんが、私はHtmlUnitを使用する必要があります。ただし、XMLまたはテキストとしてページを返します。HtmlUnitを使用してHTMLページを取得する方法

私はいくつか書かれたモジュールを使用する必要があるので、私は、これを必要とするどのように純粋なHTML(ブラウザが返すソースコードと同じ)

を取得しないでください。何か案は?

+0

mr。 Vaiは、「HTMLUNITを使用してWebページを抽出するフルコードを提供できますか」と尋ねます –

+0

私は問題を抱えています。 http://stackoverflow.com/questions/20781322/java-program-to-read-a-html-page-and-save-its-content-use-javascript – user3136059

答えて

12

あなたはあなたの目標を達成するために次のコードを使用することができます。

WebClient webClient = new WebClient(); 
Page page = webClient.getPage("http://example.com"); 
WebResponse response = page.getWebResponse(); 
String content = response.getContentAsString(); 

javadocs of the WebResponse.html#getContentAsString() methodを参照してください。

+1

ありがとう! :)私はあなたのコメントを見る前にそれを見つけた! –

+1

でも問題はありますが、タグのテキストは表示されません! –

+1

webClient.getOptions()。setJavaScriptEnabled(true) - これを追加します。 –