2012-01-24 6 views
5

私は、次の正規表現を使用して(原点はニュースサイトのコメントである)ヘブライ語のテキストのセクションをキャッチしようとしている:正規表現でヘブライ語をJavaでキャプチャするには?

[\u0590-\u05FF \\p{Graph} \\s]+ 

それはほとんどのコメントに動作しますが、いくつかのコメントを逃しています。

私はこれをデバッグしようとしたのだが、パターンに一致しないヘブライ語の文字がありますようです。

私は

アイデア...この手紙を抽出し、印刷することが整数値が正しいように思われますが、まだ正規表現はそれをキャッチしていないときは?

+0

あなたは 'Pattern.compile'メソッド内で' Pattern.UNICODE_CASE'を使用していますか? –

+0

いいえ、どうですか? – lribinik

+0

それを試してみてください: 'パターンp = Pattern.compile( "YOUR_REGEX"、Pattern.UNICODE_CASE);ヘブライ語の文字を*' –

答えて

0

より多くのsematicallyまた、あなたは、句読点、数字(少なくとも、世界的に一般的なもの)とスペースの異なる種類を一致させる必要がある代わりに\u0590-\u05FF

\p{InHebrew}を使用するのが正しいだろう。 私が\p{Graph}が何であるかを知らないと、そこには、任意のヘブライ語特有の句読点記号であるが、それは見えた、あなたはいくつかの部分を逃しました。

関連する問題