正規表現でヘブライ語をJavaでキャプチャするには？

私は、次の正規表現を使用して（原点はニュースサイトのコメントである）ヘブライ語のテキストのセクションをキャッチしようとしている：正規表現でヘブライ語をJavaでキャプチャするには？

[\u0590-\u05FF \\p{Graph} \\s]+

それはほとんどのコメントに動作しますが、いくつかのコメントを逃しています。

私はこれをデバッグしようとしたのだが、パターンに一致しないヘブライ語の文字がありますようです。

私は

アイデア...この手紙を抽出し、印刷することが整数値が正しいように思われますが、まだ正規表現はそれをキャッチしていないときは？

2012-01-24 lribinik

あなたは 'Pattern.compile'メソッド内で' Pattern.UNICODE_CASE'を使用していますか？ –

いいえ、どうですか？ – lribinik

それを試してみてください： 'パターンp = Pattern.compile（ "YOUR_REGEX"、Pattern.UNICODE_CASE）;ヘブライ語の文字を*' –

より多くのsematicallyまた、あなたは、句読点、数字（少なくとも、世界的に一般的なもの）とスペースの異なる種類を一致させる必要がある代わりに\u0590-\u05FF

の\p{InHebrew}を使用するのが正しいだろう。私が\p{Graph}が何であるかを知らないと、そこには、任意のヘブライ語特有の句読点記号であるが、それは見えた、あなたはいくつかの部分を逃しました。

2012-01-24 13:00:02 kirilloid

答えて