PDFポートフォリオをPythonで読む？

私は電子メールスレッドで構成されたpdfポートフォリオを持っています。各電子メールには添付ファイルが含まれています。私は各電子メールからテキストを読んで添付ファイルを抽出したいと思います。しかし、私はpythonでpdfのポートフォリオを読む方法に関する情報を見つけることができません。私はライブラリPDFMinerとtextractを使用しようとしましたが、出力は単に "最高のエクスペリエンスのために、このPDFポートフォリオをAcrobat XまたはAdobe Reader Xで開いてください。PDFポートフォリオをPythonで読む？

アイデア？ありがとう！

出典

2017-01-11 Joe Bringley

ユーティリティのプログラムpdfdetachは、添付ファイルを抽出できます。

ほとんどのUNIXライクなオペレーティングシステムのディストリビューションにはpoppler-utilsパッケージがあります。 SourceForgeにはms-windows版があります。

subprocessモジュールを使用して、Pythonからこのプログラムを呼び出すことができます。

出典

2017-01-11 17:57:27

PDFポートフォリオをPythonで読む？

答えて

関連する問題