htmlsourceからdivコンテンツを文字列で抽出する（Java）

htmlソースを含む文字列の中から特別なdivタグ（そのクラス名で定義）の内容を抽出しようとしています。私はJavaの正規表現の機能はperlのように使いにくいと思いますよね？htmlsourceからdivコンテンツを文字列で抽出する（Java）

誰もこれを以前にやっていて、私にコードを与えることができますか？おそらくドームブラウジングは良い解決策ですが、私は自分の問題に合ったチュートリアルを見つけられませんでした。

2009-05-07 Micha

入力と希望出力の例を挙げることはできますか？ –

divタグ、またはドキュメント全体を解析するだけですか？ –

私はHTML文書全体を読みました...それは一種のクローラです。入力は次のようになります： ...他のコード...

text i want to extract, can contain blanks, newlines and other tags

– Micha

あなたのコメントによれば、一般的なケース（「クローラ」）があるようで、効果的にXMLファイルを解析しているようです。ソースページがxhtmlの場合、さまざまなXMLライブラリにさまざまなオプションがあります。（JDomなど）。

2009-05-07 23:10:51 alphazero

このlistからHTML Parserまたはその他のHTML解析ライブラリを使用できます。

2009-05-09 19:40:19

答えて