私はテキストに変換したいpdfドキュメントのテーブルを持っています。私はpdfをテキストに変換する次のコードを見つけました。ただし、変換すると、正しい行にデータが保持されません。それはすべてを1つの長い文字列に置きます。 Pythonを使用してPDFからテキストに変換するときに、テーブルの行を保持する方法はありますか?PDFをテキストに変換する - テーブルの行を保持する - Python
from pdfminer.pdfparser import PDFDocument, PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, process_pdf
from pdfminer.pdfdevice import PDFDevice, TagExtractor
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter
from pdfminer.cmapdb import CMapDB
from pdfminer.layout import LAParams
from cStringIO import StringIO
def convert_pdf(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
process_pdf(rsrcmgr, device, fp)
fp.close()
device.close()
str = retstr.getvalue()
retstr.close()
return str