HTMLアイランドを含むテキストがあります。JavaでのHTMLフラグメントの抽出
例:
qwwdeadaskdfdaskjfhbsdfkf<a href="/cookbook/modifying-data/set-attributes">Set attribute values</a>gfkjgfkjrgjgjgjgjgroggjrog <b>jsoup</b>sdflkjsdfsfklsfklfjsfkljsfljsf<a href="/apidocs/org/jsoup/Jsoup.html#parse(java.lang.String)" title="Parse HTML into a Document.">Jsoup.parse(String html)</a>skgjdfgkjdfgkldfjgdfkgljdfg
がどのように私は、これらのHTMLの断片を抽出することができますか?
HTMLテキストとHTML以外のテキストの境界を定義するものは何ですか? –
@IraBaxter:彼はHTMLタグを意味すると思います。 –
あなたは何でも[正規表現は考慮しない](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags)。 –