2016-07-25 33 views
1

私はPyPDF2を使用してpdfからテキストを印刷しようとしています。ここに私のコードです:PyPDF2はテキストからの出力を表示しません

import PyPDF2 
pdf_file = open('report.pdf', 'rb') 
read_pdf = PyPDF2.PdfFileReader(pdf_file) 
number_of_pages = read_pdf.getNumPages() 
page = read_pdf.getPage(1) 
page_content = page.extractText() 
print (page_content.encode('utf-8')) 

結果私は何らかの警告がある空の行を取得しています。

PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1736] 
b'' 

この警告自体は結果には影響しないことを確認しましたが、私の場合は何も得られません。助言がありますか。おかげ

答えて

0

は、このようにコードを変更してみてください:

import PyPDF2 
pdf_file = open('report.pdf', 'rb') 
read_pdf = PyPDF2.PdfFileReader(pdf_file) 
number_of_pages = read_pdf.getNumPages() 
page_content = read_pdf.getPage(1).extractText() 
print (page_content.encode('utf-8','strict')) 
関連する問題