私たちは毎日PDFファイルを配信していますので、画像を取得する必要があります。例えば、私がしたいのは、画像をthis PDF file I haveからPythonで取り戻すことです。ほとんどのpdfファイルは複数ページに分かれており、各埋め込み画像を別々のファイルに書き出したいと考えています。ほとんどがjpegファイルを持っていますが、彼のファイルはありません。zlibデータを解凍してPythonでPDFに保存
オブジェクト5は、zlib圧縮ストリームとして埋め込まれています。私はそれがFlateDecodeとしてマークされ、ストリームの開始点がzlibの典型的な\ x78 \ x9cであるため、zlibが圧縮されていることを確信しています。あなたは見ることができますthe hex dump here
質問は、どのように私はそれを収縮させ、結果ファイルを保存するのですか?
あなたの知恵を分かちていただきありがとうございます。
はい、少なくとも4ページ以上で1日に数十のpdfファイルが入手できます。私たちは抽出を自動化し、私を信頼する必要があります。 –
[this](http://stackoverflow.com/questions/2693820/extract-images-from-pdf-without-resampling-in-python)をチェックしましたか?そして、グーグルが私に[これを]与えた(http://mikelynchgames.com/software-development/using-wand-to-extract-pngs-from-pdfs/)。 –
はい、私はワンドを使用しようとすると(最も簡単な)私の全体のMacbookは理由なくクラッシュします。また、とにかく展開されるサーバー上に余分なライブラリをインストールすることは許可されていません。だから、私はjpgファイルを抽出するために[\ x78 \ x9c]と画像を抽出するために[このコードは現在(https://gist.github.com/DDecoene/4e91449572a473b278ec887ce61238b5)を使っています。 –