2012-03-07 5 views
2

私はテキストに変換したいpdfドキュメントのテーブルを持っています。私はpdfをテキストに変換する次のコードを見つけました。ただし、変換すると、正しい行にデータが保持されません。それはすべてを1つの長い文字列に置きます。 Pythonを使用してPDFからテキストに変換するときに、テーブルの行を保持する方法はありますか?PDFをテキストに変換する - テーブルの行を保持する - Python

from pdfminer.pdfparser import PDFDocument, PDFParser 
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, process_pdf 
from pdfminer.pdfdevice import PDFDevice, TagExtractor 
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter 
from pdfminer.cmapdb import CMapDB 
from pdfminer.layout import LAParams 
from cStringIO import StringIO 

def convert_pdf(path): 

    rsrcmgr = PDFResourceManager() 
    retstr = StringIO() 
    codec = 'utf-8' 
    laparams = LAParams() 
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) 

    fp = file(path, 'rb') 
    process_pdf(rsrcmgr, device, fp) 
    fp.close() 
    device.close() 

    str = retstr.getvalue() 
    retstr.close() 
    return str 

答えて

1

Pdfminerには、レイアウトを解析する能力を持つpdf2txt.pyというテキスト抽出ツールが付属しています。あなたはそれを試してみるか、それを調べてどのように動作するか見ることができます。

0

A-PDF to Text他のツールとしてテーブルを使用してPDFを変換してください。

関連する問題