HTMLのウェブサイトのフルソースコードをJavaのString
にロードしようとしています。私はいくつかのアプローチを試みましたが、ほぼすべてのソースコードを取得しています。それを悪化させるためには、私が手に入れない主要な部分の1つが、私が最も必要とする部分です!Java - HTMLウェブサイトの完全なソースをロードする方法
3
A
答えて
6
URL url = new URL("http://www.website.com");
URLConnection spoof = url.openConnection();
//Spoof the connection so we look like a web browser
spoof.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0; H010818)");
BufferedReader in = new BufferedReader(new InputStreamReader(spoof.getInputStream()));
String strLine = "";
String finalHTML = "";
//Loop through every line in the source
while ((strLine = in.readLine()) != null){
finalHTML += strLine;
}
5
探しているコンテンツが実際にajax/javascriptを使用して動的に読み込まれている可能性があります。
たとえば、Webサイトに空のDIVタグが含まれている可能性があります。このタグには、ページが読み込まれた後でのみ(AJAXの別の場所への呼び出しによって)多くのものが格納されます。
+0
この場合、 'HtmlUnit'や同様のライブラリがこれらの動的コンテンツを処理できる大きな可能性があります。 – bezmax
あなたは同情していますが、あなたのコードを表示し、受け取っていないコンテンツの性質をより詳細に説明するまで、あなたは多くを得られません。 –
あなたがこれまで行ってきたことを見せて、さらに詳しく説明してください。 – RanRag
HTMLウェブサイトは公開されていますか?もしそうなら、あなたはリンクを投稿できますか? – mellamokb