gsub
を使用して標準ダッシュと思っていたものを置き換えようとしていました。私がテストしたコードはでした:特殊文字を含むR gub
gsub("-", "ABC", "reported – estimate")
これはしかし、何もしません。ダッシュをコピーしてhttp://unicodelookup.com/#–/1に貼り付けたところ、ダッシュのようです。そのサイトはenダッシュの16進数、12進コードを提供しています。私はenダッシュを置き換えようとしていますが、運がないわけではありません。提案?
(参考になる特殊文字を識別する機能があるかどうかを教えてください)
SOのコードの書式設定によってダッシュ形式が変更されるかどうかわかりませんので、ここではダッシュ( - )を使用しています。
これは素晴らしいです。おそらく、私は "特殊文字"で正しい用語を使用していなかったでしょう。これが意味するのは、標準のUTF-8ではない文字です。例えば、ô - これらは私がreadr :: write_csv()を使ってエクスポートすると奇妙に見える文字です。あなたが与えたgsubは、 "特殊文字"として "ô"を識別するために変更することはできますか? – ZRoss
すべてのascii: 'gsub(" [[:ascii:]] + "、" "、s)'にマッチする正規表現で使うことができます。これにより、結果内のすべてのUnicode文字を保持する文字列からすべてのasciiが削除されます。 –
これはPCRE構造体なので、上記の正規表現パターンで 'perl = T'を使うだけです。 –