PyPDF2を使用して、ディレクトリ内のすべてのpdfのページ数を取得しようとしています。私は.getNumPages()を使用して1つのpdfファイルのページ数を調べることができますが、ディレクトリを辿ってすべてのファイルのページ数を取得する必要があります。何か案は?Pythonを使用してディレクトリ内のすべてのpdfドキュメントのページ数を取得する
import pandas as pd
import os
from PyPDF2 import PdfFileReader
df = pd.DataFrame(columns=['fileName', 'fileLocation', 'pageNumber'])
pdf=PdfFileReader(open('path/to/file.pdf','rb'))
for root, dirs, files in os.walk(r'Directory path'):
for file in files:
if file.endswith(".pdf"):
df2 = pd.DataFrame([[file, os.path.join(root,file),pdf.getNumPages()]], columns=['fileName', 'fileLocation', 'pageNumber'])
df = df.append(df2, ignore_index=True)
このコードは、単にデータフレームにディレクトリ内の最初のPDFファイルからページ数を追加します。ここでは
は、私がこれまで持っているコードです。私はPdfFilereader(へのディレクトリパスを追加しようとした場合)私はPermissionError:[Errno 13] Permission denied.
あなたがこれを行うことを試みてきましたあなた自身最初?その場合は、コードを投稿してからヘルプを求めてください。 StackOverflowはあなたのためにあなたの仕事をする人々を得る場所ではありません! – mrpopo
mrpopo私はSOの側面を理解していますが、彼は2行のコードしか必要としないので、おそらく例外を作ることができます:) –
私はStackOverflowを初めて使っています!投稿を編集してコードを追加しました。 – Zfrieden