2017-11-02 11 views

答えて

3

私はグーグルで回り、a page about Unicode character rangesを見つけました。 CJK(中国語、日本語、韓国語)のUnicode範囲のいくつかを調べた結果、すべての文字列がこの特定の文字列に似ている場合は、次のUnicode範囲を削除する必要があるという結論に達しました。 gsub()を使用したCJK統合漢字CJK記号について

  • 3000-303Fと句読点
  • ため

    • 4E00-9FFF、我々は行うことができます

      gsub("[\U4E00-\U9FFF\U3000-\U303F]", "", x) 
      # [1] "2.87Y 1282501 12MTN4 AAA 4.40 /4.30* 2000" 
      

      データ:

      x <- "2.87Y 1282501 12电网MTN4 AAA 4.40 /4.30* 2000、" 
      
    3

    iconvを使用してこれを行うこともできます。これにより、中国語、日本語、韓国語などの非ASCII文字がすべて削除されます。

    iconv(x, "latin1", "ASCII", sub="") 
    #[1] "2.87Y 1282501 12MTN4 AAA 4.40 /4.30* 2000" 
    
    関連する問題