2009-05-07 18 views
2

htmlソースを含む文字列の中から特別なdivタグ(そのクラス名で定義)の内容を抽出しようとしています。私はJavaの正規表現の機能はperlのように使いにくいと思いますよね?htmlsourceからdivコンテンツを文字列で抽出する(Java)

誰もこれを以前にやっていて、私にコードを与えることができますか?おそらくドームブラウジングは良い解決策ですが、私は自分の問題に合ったチュートリアルを見つけられませんでした。

+0

入力と希望出力の例を挙げることはできますか? –

+0

divタグ、またはドキュメント全体を解析するだけですか? –

+0

私はHTML文書全体を読みました...それは一種のクローラです。入力は次のようになります: ...他のコード...

text i want to extract, can contain blanks, newlines and other tags
Micha

答えて

0

あなたのコメントによれば、一般的なケース(「クローラ」)があるようで、効果的にXMLファイルを解析しているようです。ソースページがxhtmlの場合、さまざまなXMLライブラリにさまざまなオプションがあります。 (JDomなど)。

1

このlistからHTML Parserまたはその他のHTML解析ライブラリを使用できます。

関連する問題