2017-03-06 40 views
1

私は1億行のデータセットを持っていますが、そのうち約10個はUnicode置換文字を持っています。この特定の文字のテキスト表現は "< U + FFFD>"(空白を削除)ですが、他にもあります。r - 文字列からUnicode置換文字を削除します。

私はキャラクターを削除したいと思いますが、私はそれを行う方法を考え出すことができませんでした。

str <- "торгово производственн��я компания" 
gsub("<U+FFFD>", "", str) 
"торгово производственн��я компания" 

追加情報を提供する必要がある場合は、お知らせください。また、ここで正確に何が起こっているのかについての説明には非常に感謝します。(通常のgsubが機能しない理由とそのように表示される理由)

+1

を' –

+0

@WiktorStribiżewありがとう、それは完璧に働いた – Alexvonrass

答えて

2

gsub関数は、最初の正規表現パターン引数。 <U+FFFD>パターンは、<、1つ以上のUシンボル、およびFFFD>の文字列に一致します。

それは次のように動作します:

> str2 <- "торгово <UUUFFFD> производственн��я компания" 
> gsub("<U+FFFD>", "", str2) 
[1] "торгово производственн��я компания" 

単なるリテラル文字列置換を使用します(TRUE =固定、STR、 "\ uFFFD"、 "") `GSUBてみ

> str <- "торгово производственн��я компания" 
> gsub("\uFFFD", "", str, fixed=TRUE) 
[1] "торгово производствення компания" 
関連する問題