多くのHTMLドキュメントをXML準拠(Javaメソッドを使用)に変換しようとしていますが、多くの<br>
タグがあります。 (2)属性を含む。何らかの理由で私が使用している正規表現は、属性を含むタグに対処しません。ここでは、コードは次のようになります。<br>、<BR>、<br +attribute>タグ<br/>
htmlString = htmlString.replaceAll("(?i)<br *>", "<br/>");
このコードは、文書内のすべての<br>
タグに正常に動作します。それらを<br/>
に置き換えます。ただし、タグの場合は
<BR style="PAGE-BREAK-BEFORE: always" clear=all>
のようなタグはありません。私はすべてのbrタグを<br/>
にすることを、変換前のタグの属性に関係なくしたいと思います。
これを達成するには、正規表現に何を追加する必要がありますか?
'。*'はお勧めできません。そのパターンは、 '
Lorem ipsum dolor sit amet'でどうなるでしょうか? – VGR