PDFminerを使用して、PDFから.textファイルにテキストを抽出します。コードを見つけましたが、使用方法はわかりません

-2

これは私がここで見つけたコードです。どのように使用するかわかりません。誰かがこれを通って私を歩いて、私はサンプルPDFを変換するのに役立つことができますか？PDFminerを使用して、PDFから.textファイルにテキストを抽出します。コードを見つけましたが、使用方法はわかりません

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 
from pdfminer.converter import TextConverter 
from pdfminer.layout import LAParams 
from pdfminer.pdfpage import PDFPage 
from cStringIO import StringIO 

def convert_pdf_to_txt(path): 
    rsrcmgr = PDFResourceManager() 
    retstr = StringIO() 
    codec = 'utf-8' 
    laparams = LAParams() 
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) 
    fp = file(path, 'rb') 
    interpreter = PDFPageInterpreter(rsrcmgr, device) 
    password = "" 
    maxpages = 0 
    caching = True 
    pagenos=set() 

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): 
     interpreter.process_page(page) 

    text = retstr.getvalue() 

    fp.close() 
    device.close() 
    retstr.close() 
    return text

出典

2016-05-21 iMiner

に使うインストールするpdfminer /ツール

に位置していますか？ – glls

そうですね。それは何もしません。 – iMiner

ここからコードを抽出したと仮定していますか？ https://www.binpress.com/tutorial/manipulating-pdfs-with-python/167 – glls

あなたがpdfminerを使用して、そのページからコードを使用すると、そのドキュメントhttps://www.binpress.com/tutorial/manipulating-pdfs-with-python/167読む場合：

from cStringIO import StringIO 
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 
from pdfminer.converter import TextConverter 
from pdfminer.layout import LAParams 
from pdfminer.pdfpage import PDFPage 

def convert(fname, pages=None): 
    if not pages: 
     pagenums = set() 
    else: 
     pagenums = set(pages) 

    output = StringIO() 
    manager = PDFResourceManager() 
    converter = TextConverter(manager, output, laparams=LAParams()) 
    interpreter = PDFPageInterpreter(manager, converter) 

    infile = file(fname, 'rb') 
    for page in PDFPage.get_pages(infile, pagenums): 
     interpreter.process_page(page) 
    infile.close() 
    converter.close() 
    text = output.getvalue() 
    output.close 
    return text

を私はあなたがどんな悩み使用を持ってすべきだと思ういけない：

DEF、FNAME（変換pages = None）：基本的にあなたのためのpdfを変換します

some_variable = convert("filename.pdf") 
print(some_variable) 
#do something with your variable

はあなたの例のPDFファイルを使用して：

出典

2016-05-21 21:46:43 glls

それは動作します...ちょっと。これは出力でした： This is is pdf 元のPDFは "これはpdf"ですが、pythonには "ThisÂisÂpdf"と表示されます。 – iMiner

は、それを共有できるのですか？ – glls

https://drive.google.com/file/d/0B5eGq9boXZxARWJLX0pDb1RaX2s/view?usp=sharing on the google drive。私はそれを共有して以来、あなたはそれをダウンロードできると思います。 – iMiner

は最終的に私はこれへの道を見つけました。最適なライブラリはPDfminerであり、pdf2txt.pyでの変更はほとんどありません。 pdf2text.pyは、あなたがそれを実行している試してみましたPDfminerは、端末

pip install PDfminer

from cStringIO import StringIO 
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 
from pdfminer.converter import TextConverter 
from pdfminer.layout import LAParams 
from pdfminer.pdfpage import PDFPage 
import re 

def convert(fname): 
    pages=None 
    if not pages: 
     pagenums = set() 
    else: 
     pagenums = set(pages) 

    output = StringIO() 
    manager = PDFResourceManager() 
    converter = TextConverter(manager, output, laparams=LAParams()) 
    interpreter = PDFPageInterpreter(manager, converter) 

    infile = file(fname, 'rb') 
    for page in PDFPage.get_pages(infile, pagenums): 
     interpreter.process_page(page) 
    infile.close() 
    converter.close() 
    text = output.getvalue() 
    output.close 
    print text 

    # write Content to .txt 
    text_file = open("Output_1.txt", "w") 
    text = re.sub("\s\s+", " ", text) 
    text_file.write("%s" % text) 
    text_file.close() 

convert("xyz.pdf")

出典

2017-04-24 07:05:09 user3732708

PDFminerを使用して、PDFから.textファイルにテキストを抽出します。コードを見つけましたが、使用方法はわかりません

答えて

関連する問題