2012-05-03 12 views
1

Javaを使用して特定のWebページのHTML出力を読み取る方法があるのでしょうか?特定の部門のページスクラップ

私は次のようにPHPで、あなたが何かを行うことができます知っている:私は、Javaと同等を探しています

$handle = @fopen("'http://www.google.com", "r"); 
$source_code = fread($handle,9000); 

また、レンダリングされたhtmlを取得したら、そのIDで1つのdivを取り除くことを許可するJavaユーティリティがありますか?

ありがとうございます。

+0

[jsoup:Java HTML Parser](http://jsoup.org/) –

答えて

2

jsoupを使用してください。

ツリーモデルと、CSSまたはjQueryセレクタに似た強力なクエリ構文と、Webページのソースを素早く取得するユーティリティメソッドの選択肢があります。

は、ウィキペディアのホームページを取得DOMにそれを解析し、要素のリストにニュースセクションでから 見出しを選択します:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 
Elements newsHeadlines = doc.select("#mp-itn b a"); 
彼らのウェブサイトから引用する

削除したいを表すが見つかったら、remove()を呼び出してください。

+0

ストリップアウトの意味が明確ではありませんでした。特定のdivを変数に取り除き、残りのページを破棄したいと思います。どのように私はそれをやるのだろうか? – Baxter

+0

ああ、それは 'Element someElement = doc.getElementById(" someId ")' :)と同じくらい簡単になるはずです –

+0

ありがとう、ありがとう! – Baxter

関連する問題