私はこれを持っていますmyfile(これは私が貼り付けた、私は問題の関連データがコピー/貼り付けを生き延びたことを願っています)。私は、そのファイルを読み取ろう:"Cソース、ISO-8859テキスト"を読む方法
import codecs
codecs.open('myfile', 'r', 'utf-8').read()
しかし、これは与える:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe5 in position 7128: invalid continuation byte
を、私は、ファイルをチェックした場合:
» file myfile
myfile: C source, ISO-8859 text
- 私は、ファイルのようなものを(読むことができますどのようにISO-8859)をPythonで使用していますか?
- 一般的に、ファイルがどのようにエンコードされているかをどのように知ることができますか?
私が生成していないファイル(システムファイル、インターネットからダウンロードしたランダムファイル、プロバイダ、顧客などが提供するランダムファイル)を扱っています:これらのファイルは提供していません彼らが使っているエンコーディングの手掛かりです。多文化環境(ヨーロッパ)にあるため、これらのファイルがどのようにコード化されているかを知ることは困難です。ほとんどの場合、ファイルを提供している人さえもエンコーディングについての手掛かりはありません。エンコーディングについてのヒントは、エディタ/選択したツールによって舞台裏で起こることがあります。使用されているエンコーディングをファイル単位で確認するにはどうすればよいですか?
にあなたはとのトラブルを持っていたバイトが保持されませんでしたpastebin.comに置くファイルを構築して使用することができます。 –
奇妙な:視覚検査は、彼らがそこにいると伝えます(ライン151) – dangonfast
ああ、確かに、データはUTF8でエンコードされているので、ラテン1エンコーディングは気にしないでファイルを開いたし、UTF8も失敗しませんでした。 :-)あなたのブラウザは、それ自体の推測者を使用した後、エンコーディングを調整しているに違いありません。 –