0
私はpdfsのライブラリを持っています(大部分は圧縮されたランダムなものとdjvuのものもあります)。これらのpdfsの一部は壊れており、削除する必要があります。Python PDFの整合性チェック
とにかく私はpythonの完全性検査でpdfを行うことができますか?
私はpdfsのライブラリを持っています(大部分は圧縮されたランダムなものとdjvuのものもあります)。これらのpdfsの一部は壊れており、削除する必要があります。Python PDFの整合性チェック
とにかく私はpythonの完全性検査でpdfを行うことができますか?
、
from pyPdf import PdfFileReader
try :
mypdf = PdfFileReader(file('filename', 'rb'))
except:
print filename,' is invalid pdf'
OK。私は今それを試みているが、私は他の方法があるかどうか疑問に思っていた。また、私は、pdfデータのハッシュが一意であると仮定しますか? (衝突がないと仮定) –
はい、PDFハッシュは一意である必要があります。しかし、PyPDFが開くことのできないPDFがたくさんありますが、ほとんどのPDFリーダーがそうしているので、この技法は潜在的な候補のリストを提供します。 –