複数のPDFファイルの最初のページのみを取り除き、1つのファイルに結合しようとしています。 (私は1日に150のPDFファイルを受け取り、最初のページは私が必要とする請求書であり、以下の3〜12ページは単なるバックアップではありません)そのため、入力はさまざまなサイズの150のPDFファイルで、 1 150ファイルのそれぞれの最初のページのみを含むPDFファイル。PDFの最初のページのみを選択するpypdf2
私がしたように見えるのは、最初のページ(私が必要とする唯一のページ)以外のすべてのページをマージしたことです。
import PyPDF2, os
pdfFiles = []
for filename in os.listdir('.'):
if filename.endswith('.pdf'):
pdfFiles.append(filename)
pdfFiles.sort(key=str.lower)
pdfWriter = PyPDF2.PdfFileWriter()
for filename in pdfFiles:
pdfFileObj = open(filename, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
for pageNum in range(1 , pdfReader.numPages):
pageObj = pdfReader.getPage(pageNum)
pdfWriter.addPage(pageObj)
pdfOutput = open('CombinedFirstPages.pdf', 'wb')
pdfWriter.write(pdfOutput)
pdfOutput.close()
あなたのPDFファイルを画像形式です
グッドラック..?生のテキスト? – DRPK
私はPDF文書(画像)から情報を取り除いていません。請求書の支払いを承認するために最初のページを印刷するだけです。 –