2009-10-20 3 views
6

RTFドキュメントを解析するコードをいくつか書いており、使用できるさまざまなコードページを処理する必要があります。 Pythonは、必要なすべてのWindowsコードページ用デコーダが付属していますが、私は、Macのものを処理するかどうかはわかりません。PythonでMac OSのテキストをデコイルする

# 77: "10000", # Mac Roman 
# 78: "10001", # Mac Shift Jis 
# 79: "10003", # Mac Hangul 
# 80: "10008", # Mac GB2312 
# 81: "10002", # Mac Big5 
# 83: "10005", # Mac Hebrew 
# 84: "10004", # Mac Arabic 
# 85: "10006", # Mac Greek 
# 86: "10081", # Mac Turkish 
# 87: "10021", # Mac Thai 
# 88: "10029", # Mac East Europe 
# 89: "10007", # Mac Russian 

んPythonはこれらのための任意の組み込みのサポートがありますか?そうでない場合は、それらを処理するクロスプラットフォームのpure-Pythonライブラリがありますか?

あなたが「MAC-トルコ」、それらの名前のMAC-ローマン 'で知られているこれらのためのpythonのコーデックを使用することができます

答えて

8

など

>>> 'foo'.decode('mac-turkish') 
u'foo' 

あなたは自分の名前でそれらを参照する必要がありますあなたの質問にあるこれらの数字は、ソースファイルには表示されません。詳細は$pylib/encodings/mac_*.pyをご覧ください。

+2

また、それらのMacエンコーディングは、古典的なMacOSの時代にまでさかのぼり、Mac OS Xではほとんど廃止されています。 –

1

しかし、unicode.orgは、あなたがそれらのコーデックを解析するモジュールを生成するために使用できるコーデック記述ファイルを提供します。 Pythonソースディストリビューションには、これらのファイルを変換するスクリプト(Python-x.x/Tools/unicode/gencodec.py)が含まれています。

関連する問題