2015-09-17 13 views
5

niqqud(母音を表すため、またはヘブライ語アルファベットの代替発音を区別するための発音区別記号)を削除するのに苦労しています。 私は、例えば、この変数があります。 SAMPLE1 < - 「הֻסְמַק」rを使用してヘブライ語「niqqud」を削除する

を、私は手紙下記の兆候を除去する効果的な方法を見つけることができません。

が :-(... は

なし成功gsub('[:punct:]','',sample1)を試してみましたstr_replace_all(sample1, "[^[:alnum:]]", "")と、ストリンガーしようとした任意のアイデア?

+1

[my gsub example](http://ideone.com/1IxAeA)をご覧ください。それはあなたのために機能しますか? –

+0

@stribizhev - ありがとう!それは魅力のように働いた –

+0

あなたはタグ[タグ:ヘブライ]を使用する必要があります!また[タグ:ユニコード] – smci

答えて

2

あなたは、Perlのような正規表現と発音区別符号に一致するように\p{M} Unicodeのカテゴリを使用し、gsubすることができます1でのそれらのすべては、次のように行く:

sample1 <- "הֻסְמַק" 
gsub("\\p{M}", "", sample1, perl=T) 

結果:[1] "הסמק"

demo

\p{M}又は\p{Mark}参照:別の文字(例えば組み合わせるされることを意図した文字をアクセント、ウムラウト、囲みボックスなど)。

詳細はRegular-Expressions.info, "Unicode Categories"を参照してください。

関連する問題