2011-01-27 4 views
2

Outlookから保存された電子メールをテキストのみでデコードする必要があります。残念ながら、特別な「スマートクォート」文字が含まれているため、ISO-8859-1にはありません。 Outlookで使用されるコードページは実際の名前(Pythonでunicode.decode()に渡すことができる)を持っていますか、それとも手作業で解読する必要のあるナンセンスですか?もしそうなら、誰もマイクロソフトが追加したすべての「特別な」文字の参照を持っていますか?Outlookはプレーンテキストメッセージにどのエンコードを使用しますか?

+0

標準のUTF-8ではありませんか? (私はあなたがすでにそれを試したことを前提としていますか?)私はこれが本当にプログラミング関連であると確信していません。 –

+0

MicrosoftはいつUTF-8を何かのために使用し始めましたか?私は彼らがまだUTF-16を単に「Unicode」と呼んでいると思いますか? –

答えて

2

Outlookは現在のロケールでメッセージを保存する可能性が非常に高いです。私の推測はWindows-1252でしょう。

Nitpick:「スマート・クォート」とは、実際にはクォートが見えるようになっているものです。あなたの投稿で使用している引用符を「タイプライター引用符」と呼びます。機械的なタイプライターの場合、キーの数は大きなコストファクターであり、引用符は互いに非常によく似ており、インチ記号は単一のキーに合体し、美学は害されます。

+0

あなたはそうです、彼らはWindows-1252です。ありがとう。 –

+0

これはPythonの "cp1252"です。 –

1

多くの(ロケール依存)Windows code pagesがあります。したがって、最悪の場合は、送信者が所在する国によって異なります。

+0

すべてのメッセージは、米国または英国のロケールからのものと見なすことができます。実際にはWindows-1252が正しいエンコードであるようです。ありがとうございます。 –

関連する問題