私はPDFminerのpdf2textを使ってPDFをテキストに変換しました。残念ながら、それは特殊文字を含んでいます。私は私のコンソールPython:私に問題を与える特殊文字(PDFminerから)
>>>a=pdf_to_text("ap.pdf")
相続人
それのサンプル、少し切り詰め
>>>a[5000:5500]
'f one architect. Decades ...... but to re\xef\xac\x82ect\none set of design ideas, than to have one that contains many\ngood but independent and uncoordinated ideas.\n1 Joshua Bloch, \xe2\x80\x9cHow to Design a Good API and Why It Matters\xe2\x80\x9d, G......=-3733'
私はそれ
>>>a[5000:5500].encode('utf-8')
Traceback (most recent call last):
File "<interactive input>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 237: ordinal not in range(128)
私は少し周りを探索し符号化しなければならないことを理解してからの出力をお見せしましょう彼らを試しました、特にReplace special characters in python。入力はPDFminerから来ているので、そのタフ(AFAIK)を制御します。適切にする方法は何ですか平文この出力からですか?
私は間違っていますか?
-A-クイックフィックス:ascii-するPDFminerのコーデックを変更するが、それはコーデックを変更answer-ための持続的なsolution--
--Abandonedクイックフィックスはありませんが削除された情報 -
マキシムhttp://en.wikipedia.org/wiki/Windows-1251で述べたように-A-のrelaventトピック -
ありがとう!私は初心者Pythonであなたは多分このエラーがappaerいないようにPdfminerを使用する方法デモコードを投稿することができますか?ありがとう –