私は奇妙なことにコンパイルするFacebookからの情報を削っています。私はリストにそれを印刷したり、それをコミットしようとするとユニコードが再ユニコードされています
Trentem\u00f8ller
がprint u'%s' % name
またはprint unicode(name)
それはエスケープシーケンスバックスラッシュ:ページのソースは、Unicode文字を持つ通常の文字列として名「Trentemøller」を返します。
u'Trentem\\u00f8ller'
['foo', 'bar', u'Trentem\u00f8ller']
この文字列を扱うための適切な方法は何ですか?理想的には、それをu''
のリストに保存しますが、バックスラッシュは追加しません。あなたがUnicode文字列を形成する制御にしている場合は
あなたがコピーして何かを貼り付け、またはあなたがコードを書いているしていますか?あなたのコードや端末が見えないので、何が起きているのかわかりません。私はFacebookからデータをどのように削っているかもわかりません。 –
機械翻訳のブラウザモジュールでソースを文字列として取得しています。その後、ソースがとても奇妙なので、私はBeautifulSoupが機能しないので、find()文ですばやく切り捨てます。これは私が知る限り、いつものASCII文字列として扱われます。 –
お待ちください... HTMLから適切なものを抽出していますか、言い換えれば、HTMLに埋め込まれたJSONやJavascriptを探していますか? –