2012-04-09 4 views
2

ウェブページの内容を読むのに助けが必要です。現在、私は内容を読むために次の方法を使用していますJavaの動的Webページコンテンツを読む

BufferedReader in = new BufferedReader(new InputStreamReader(page.openStream())); 
String inputLine; 
while ((inputLine = in.readLine()) != null) 
{Content = Content + inputLine;} 

しかし、この方法では問題があります。 。述べたように、このページの読者が私のJavaのメソッドを介して読み込まれたときにその結果

if (request.readyState === 4 && request.status === 200) 
{ 
var type = request.getResponseHeader("Content-Type"); 
$('.update').empty(); 
$('.update').append(request.responseText); //update the css class 
} 

:いくつかのJSPページは、単にアイデアを与えるために、ランダムにそう JavascriptコードのようなWebページのCSSクラスを更新し、それらでAJAXを持っています私はちょうど得る

<div class="update"></div> 

このクラスは値を持っていますが。 しかし、最初にページを保存すると(Firefoxで保存をクリックすると)、jqueryでCSSクラスに追加された値も表示されます。 Firefoxのように値を読み込んでページを保存する方法や方法はありますか?文字列にあるAjax値を使ってWebページ全体の内容を読みたいと思います。

私はJAVAスクリプトがレンダリングされ、ブラウザによって実行されているので、これは難しいと読んでいます。だから、Firefoxは助けになるかもしれないapiを持っていますか?任意の提案をいただければ幸いです。

+1

Webページは、StreamReaderで読み込むだけでなく、レンダリングする必要があります。 Google検索の "JavaでのWebレンダリング"(引用符なし)を使用して、作業できるものが見つかったかどうかを確認します。 –

答えて

4

あなたは便利な次のプロジェクトを見つけることがあります。ここでは

もデータビッグバンからvery informative blog postです。

+0

HTMLUnitはまさに私が必要としていたような素晴らしい返信をしてくれてありがとうございます。有望ですが、まだ使用していません。 – Rajeshwar

+0

Htmlunitは一部のJavaスクリプトWebサイトをクロールしていません。 – BasK

2

PhantomJSもチェックしてください。 CrowbarがMozillaのヘッドレスブラウザであるのと同じように、PhantomJSはヘッドなしのWebKitブラウザで、SafariとGoogle Chromeが使用するエンジンです。

+0

PhantomJSは魅力的で、私の必要に合っているようです –

関連する問題