「Aiavärav」と言います。式\w+
はこの単語を捕捉するはずですが、文字「ä」は単語を半分にカットします。 "Aiavärav"の代わりに、 "Aia"を得る。これらの非ASCII文字を含む単語の正しい正規表現は何ですか?Javaの正規表現では他の言語の文字を単語文字( wなど)として認識しません
Pattern.compile("\\w+", Pattern.UNICODE_CHARACTER_CLASS)
またはパターンで(?U)
を埋め込む:あなたはUNICODE_CHARACTER_CLASS
フラグを指定しない限り
単語をコピーして文字列に入れると、正規表現\ w +を使用して正しく単語を取得できます。私はC#でテストしています。 –
Javaを使用しています。また、私はmyregextester.comでテストしたが、それでも単語全体を認識しません。 – jyriand
[Unicode letters](http://www.regular-expressions.info/unicode.html)を見たいかもしれませんか? '\ p {L} + ' – Wiseguy