私は、次の文字列からすべての漢字を削除しようとしています:文字列からすべての中国語文字を削除するにはどうすればよいですか?
x <- "2.87Y 1282501 12电网MTN4 AAA 4.40 /4.30* 2000、"
私はこれをどのように行うことができますか?
私は、次の文字列からすべての漢字を削除しようとしています:文字列からすべての中国語文字を削除するにはどうすればよいですか?
x <- "2.87Y 1282501 12电网MTN4 AAA 4.40 /4.30* 2000、"
私はこれをどのように行うことができますか?
私はグーグルで回り、a page about Unicode character rangesを見つけました。 CJK(中国語、日本語、韓国語)のUnicode範囲のいくつかを調べた結果、すべての文字列がこの特定の文字列に似ている場合は、次のUnicode範囲を削除する必要があるという結論に達しました。 gsub()
を使用したCJK統合漢字CJK記号について
3000-303F
と句読点ため
4E00-9FFF
、我々は行うことができます gsub("[\U4E00-\U9FFF\U3000-\U303F]", "", x)
# [1] "2.87Y 1282501 12MTN4 AAA 4.40 /4.30* 2000"
データ:
x <- "2.87Y 1282501 12电网MTN4 AAA 4.40 /4.30* 2000、"
iconv
を使用してこれを行うこともできます。これにより、中国語、日本語、韓国語などの非ASCII文字がすべて削除されます。
iconv(x, "latin1", "ASCII", sub="")
#[1] "2.87Y 1282501 12MTN4 AAA 4.40 /4.30* 2000"