"date de d \ u u00e9part"を "date dedépart"に変換するには？

私はirbでUTF8コードポイントで文字列を表示していますが、実際の文字で表示することをお勧めします。たとえば、date de d\\u00e9partをdate de départに変更するか、\\u4f4f\\u6240を住所に変更します。"date de d u u00e9part"を "date dedépart"に変換するには？

これらの文字列は、File.readlines("myfile.txt")でファイルを読み取ることで構築されます。 file -I myfile.txtはmyfile.txt: text/plain; charset=us-asciiを返し、"date de d\\u00e9part".encoding"は#<Encoding:UTF-8>を返します。

出典

2016-11-20 Florent2

実際には 'myfile.txt'に正しい文字列が含まれていますか？二重バックスラッシュと 'charset = us-ascii'は' \ u00e9' _literally_、つまり '' \ '、' 'u'、' 0'、 '0'、' e'、 '9'を含むことを示唆しています。。 – Stefan

'myfile.txt'は正しい文字列を含んでいません。これはmongodbのダンプから来て、' \ '、' u'、 '0'、' 0'、 'e'、' 9' 。 – Florent2

ダンプがJSON形式であると思われます。もしそうなら、多分あなたはそれを読み、 "myfile.txt"の代わりに "myfile.json"のような名前のファイルを使うべきです。 –

string.gsub(/\\u(....)/) { [$1.hex].pack("U") }でこれを実行できました。

https://stackoverflow.com/a/6976631/117704が役に立ちました。

出典

2016-11-20 16:21:40 Florent2

"date de d \ u u00e9part"を "date dedépart"に変換するには？

答えて

関連する問題