Nokogiriで解析されたHTMLドキュメントを取得しています。 HTMLは文字セットISO-8859-1を使用しています。問題は、Unicodeの文字がドキュメント内にあり、それぞれの文字の代わりにUnicodeのコードポイントに変換されることです。RubyでUnicodeコードポイントをエンコードする
例えば、これは、(ISO-8859-1に)受信したHTMLでいくつかのテキストです:
\x95\x95 JOHNNY VENETTI \x95\x95
そして、このテキストを操作しようとすると、それはこれに変換される:
\u0095\u0095 JOHNNY VENETTI \u0095\u0095
私の質問は、これらの文字がコードポイントではなく適切な文字として表示されるようにする方法です。私はテキスト上でgsubをやってみましたが、これは間違っているようです。また、私はHTML文書のエンコーディングを制御できません。
「0x95」または149は、ISO-8859-1の有効な文字コードではありません。 [CP-1252](http://en.wikipedia.org/wiki/Windows-1252)を意味しましたか( '0x95'はシンボル'? ')ですか? –