htmlソースを含む文字列の中から特別なdivタグ(そのクラス名で定義)の内容を抽出しようとしています。私はJavaの正規表現の機能はperlのように使いにくいと思いますよね?htmlsourceからdivコンテンツを文字列で抽出する(Java)
誰もこれを以前にやっていて、私にコードを与えることができますか?おそらくドームブラウジングは良い解決策ですが、私は自分の問題に合ったチュートリアルを見つけられませんでした。
htmlソースを含む文字列の中から特別なdivタグ(そのクラス名で定義)の内容を抽出しようとしています。私はJavaの正規表現の機能はperlのように使いにくいと思いますよね?htmlsourceからdivコンテンツを文字列で抽出する(Java)
誰もこれを以前にやっていて、私にコードを与えることができますか?おそらくドームブラウジングは良い解決策ですが、私は自分の問題に合ったチュートリアルを見つけられませんでした。
あなたのコメントによれば、一般的なケース(「クローラ」)があるようで、効果的にXMLファイルを解析しているようです。ソースページがxhtmlの場合、さまざまなXMLライブラリにさまざまなオプションがあります。 (JDomなど)。
このlistからHTML Parserまたはその他のHTML解析ライブラリを使用できます。
入力と希望出力の例を挙げることはできますか? –
divタグ、またはドキュメント全体を解析するだけですか? –
私はHTML文書全体を読みました...それは一種のクローラです。入力は次のようになります: ...他のコード...