2017-01-11 13 views
0

私は電子メールスレッドで構成されたpdfポートフォリオを持っています。各電子メールには添付ファイルが含まれています。私は各電子メールからテキストを読んで添付ファイルを抽出したいと思います。しかし、私はpythonでpdfのポートフォリオを読む方法に関する情報を見つけることができません。私はライブラリPDFMinerとtextractを使用しようとしましたが、出力は単に "最高のエクスペリエンスのために、このPDFポートフォリオをAcrobat XまたはAdobe Reader Xで開いてください。PDFポートフォリオをPythonで読む?

アイデア?ありがとう!

答えて

0

ユーティリティのプログラムpdfdetachは、添付ファイルを抽出できます。

ほとんどのUNIXライクなオペレーティングシステムのディストリビューションにはpoppler-utilsパッケージがあります。 SourceForgeにはms-windows版があります。

subprocessモジュールを使用して、Pythonからこのプログラムを呼び出すことができます。