2012-04-07 26 views
0

私はpdfsのライブラリを持っています(大部分は圧縮されたランダムなものとdjvuのものもあります)。これらのpdfsの一部は壊れており、削除する必要があります。Python PDFの整合性チェック

とにかく私はpythonの完全性検査でpdfを行うことができますか?

答えて

2
PDFを読んで、リード処理はあなたにエラーを出しますので、同じよう...それは無効と宣言することができpyPDF

from pyPdf import PdfFileReader 
try : 
    mypdf = PdfFileReader(file('filename', 'rb')) 
except: 
    print filename,' is invalid pdf' 
+0

OK。私は今それを試みているが、私は他の方法があるかどうか疑問に思っていた。また、私は、pdfデータのハッシュが一意であると仮定しますか? (衝突がないと仮定) –

+0

はい、PDFハッシュは一意である必要があります。しかし、PyPDFが開くことのできないPDFがたくさんありますが、ほとんどのPDFリーダーがそうしているので、この技法は潜在的な候補のリストを提供します。 –

関連する問題