私の質問は次のとおりです。正規表現のグループ化
非常に長い文字列があり、非常に多くの値が異なるタグで囲まれています。中国語、英語の言葉遣い、数字などの値。
指定パターンで区切りたいです。以下は例である: (Iパターンを見つけたいXXXXXX xxxxは、中国語、英語、数字または任意の表記法であるが、タグを識別するために、これら2つのシンボルがあるとして「<」または「>」を含まない場合)
しかし、私はこれらのパターンに奇妙なものを見つけました。パターンは、(最初の二つのタグをrecgonizeなかったようだ)が、第2 1
String a = "<f\"number\">4 <f\"number\"><f$n0>14 <h85><f$n0>4 <f$n0>2 <f$n0>2 7 -<f\"Times-Roman\">7<f\"number\">";
Pattern p = Pattern.compile("<f\"number\">[\\P{sc=Han}*\\p{sc=Han}*[a-z]*[A-Z]*[0-9]*^<>]*<f\"number\">");
Matcher m = p.matcher(a);
while(m.find()){
System.out.println(m.group());
}
出力は\\P{sc=Han}
ため
あなたはXML/HTMLを解析する必要がある場合は、あなたが考慮しなければなりませんXMLパーサーを使用します。正規表現はこれを扱うほど辛口ではありません。 –
ごめんなさい。 – DickDickSean
予想される結果は – DickDickSean