2016-04-23 14 views
0

でDOMビューhtmlページを取得できませんJsoupは私がDOMビューでページ全体を取得できますかはイムがページを取得</p> <pre><code>public void getHtml() throws IOException { String html = Jsoup.connect("http://vp.by/").get().html(); System.out.println(html); } </code></pre> <p>Jsoup

<html> 
<head></head> 
<body></body> 
</html> 

を返しますか? (google.com、facebook.comなどのサイトは正常に取得しています)

+0

Jsoup.connectは()のドキュメントを返します。このクラスはあなたに必要なものすべてを与えるはずです。 Document.toString()は文字列内のHTMLを与えるべきです。 – RaviU

+0

@Raviuあなたが言ったように私はしました ドキュメントdoc = Jsoup.connect( "http://vp.by/").get(); System.out.println(doc.toString()); しかし、まだ空のDOMを返します –

答えて

0

ここで問題となるのは、vp.byが有効なブラウザリクエストではないと思われる奇妙な接続を検出することです。例えば、curl -v -X GET http://vp.byを実行した場合、内容のない200 OK応答が得られます。 User-Agentヘッダーを追加することで、有効なブラウザベースのリクエストをよりよく模倣できます。

次のことを試してみてください。

public void getHtml() throws IOException { 
    String html = Jsoup 
      .connect("http://vp.by/") 
      .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36") 
      .get().html(); 
    System.out.println(html); 
} 
関連する問題