2012-03-23 4 views
3

HTMLのウェブサイトのフルソースコードをJavaのStringにロードしようとしています。私はいくつかのアプローチを試みましたが、ほぼすべてのソースコードを取得しています。それを悪化させるためには、私が手に入れない主要な部分の1つが、私が最も必要とする部分です!Java - HTMLウェブサイトの完全なソースをロードする方法

+5

あなたは同情していますが、あなたのコードを表示し、受け取っていないコンテンツの性質をより詳細に説明するまで、あなたは多くを得られません。 –

+2

あなたがこれまで行ってきたことを見せて、さらに詳しく説明してください。 – RanRag

+1

HTMLウェブサイトは公開されていますか?もしそうなら、あなたはリンクを投稿できますか? – mellamokb

答えて

6
URL url = new URL("http://www.website.com"); 
URLConnection spoof = url.openConnection(); 

//Spoof the connection so we look like a web browser 
spoof.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0; H010818)"); 
BufferedReader in = new BufferedReader(new InputStreamReader(spoof.getInputStream())); 
String strLine = ""; 
String finalHTML = ""; 
//Loop through every line in the source 
while ((strLine = in.readLine()) != null){ 
    finalHTML += strLine; 
} 
+0

Mozillaのオプションがあります。これはMozillaをお持ちの場合のみ有効ですか?私はこれがWebブラウザの大多数のために働くことを望みます。 – Confiqure

+1

いいえ、Mozillaブラウザを使っているようなふりをしているだけなので、あなたが正当なユーザーがサイトを閲覧しているようです。 – JCab

+0

ああ、そうです。これを試してみましょう。 – Confiqure

5

探しているコンテンツが実際にajax/javascriptを使用して動的に読み込まれている可能性があります。

たとえば、Webサイトに空のDIVタグが含まれている可能性があります。このタグには、ページが読み込まれた後でのみ(AJAXの別の場所への呼び出しによって)多くのものが格納されます。

+0

この場合、 'HtmlUnit'や同様のライブラリがこれらの動的コンテンツを処理できる大きな可能性があります。 – bezmax