2016-09-29 2 views
0

私はpython 2.7とpyPDFを使用して、PDFファイルからタイトルメタ情報を取得しています。残念ながら、すべてのPDFにメタ情報があるわけではありません。私が今したいことは、PDFからテキストの最初の2行を取得することです。私が今使っているものを使って、pyPDFで最初の2行をキャプチャするコードをどのように変更できますか?PythonとpyPDFで最初の2行のPDFを抽出します。

from pyPdf import PdfFileWriter, PdfFileReader 
import os 

for fileName in os.listdir('.'): 
    try: 
     if fileName.lower()[-3:] != "pdf": continue 
     input1 = PdfFileReader(file(fileName, "rb")) 

     # print the title of document1.pdf 
     print fileName, input1.getDocumentInfo().title 
    except: 
     print ",", 

答えて

1
from PyPDF2 import PdfFileWriter, PdfFileReader 
import os 
import StringIO 

fileName = "HMM.pdf" 
try: 
     if fileName.lower()[-3:] == "pdf": 
      input1 = PdfFileReader(file(fileName, "rb")) 

      # print the title of document1.pdf 
      #print fileName, input1.getDocumentInfo().title 

      content = input1.getPage(0).extractText() 
      buf = StringIO.StringIO(content) 
      buf.readline() 
      buf.readline() 

except: 
     print ",", 

私のPWDは、この "HMM.pdf" ファイルが含まれており、このコードが正しくのpython 2.7に取り組んでいます。

+0

あなたは私の現在のコードに基づいて完全な例を表示することができます...あなたが上記で与えたコードを追加すると何も出力されません。 – acctman

+0

がコードを編集しました。 –

+0

私は何かまだ出力が欠けています。フォルダに5つのpdfファイルがあります。スクリプトを実行しても何もしません。 – acctman

関連する問題