2011-09-09 14 views
-1

私はJavaアプリケーションを作成していますが、私はそこから単語を取得したい段落を持っていました。私は正規表現を書いて、英語の単語だけをつかみ、その中にアクセントを持つ単語は無視したい(英語以外の文字が1つ以上ある)。アクセントを含むすべての単語(英語以外の単語)を無視するにはどうすればよいですか?

例:berøresAF EllerのERafgørendeTEAMため

私は、p {M}または何\使用する必要がありますか?

+2

英語の単語にはアクセント記号が付きます。 Sheesh!それほど学習していないのですか? – tchrist

+4

多くの英語以外の単語にはアクセント記号が付きません。 –

+5

[英語](http://ja.wikipedia.org/wiki/Diacritic#English)の単語にアクセントや句読点を付けることができます。収縮(「しない」、「できない」)、ローン語(「ナイーブ」、「カフェ」)、複合語「消防士」、および適切な名前(「ゾーエ」)が例です。 –

答えて

2

これは、文字A~Zを含むすべての単語に一致します。

(?:^|\s)[a-zA-Z]+(?=\s|$) 

正規表現の一部のフレーバは、アクセント記号付きの文字で\bと一致します。そのため、必要があれば先読みに句読点を追加する必要があります。