pdfminer

    0

    1答えて

    私は、複雑な(表、図)と非常に長いpdfをhtmlに変換するためにpdfminerを使用しました。結果をさらに解析したい(たとえば、テーブルや段落を抽出するなど)、nltkのsentence tokenizerを使用してさらに分析を行いたいとします。この目的のために、私は解析を行う方法を理解するために、HTMLファイルをテキストファイルに保存します。残念ながら、私のコードは、TXTにHTMLを書き

    0

    1答えて

    pdfminerツールを使用して、pdfを.csv(テキスト)に変換し、ツールのサブコマンドの1つであるCStringIOおよびStringIOを引き続き使用します。文字列から文字列への変換 - import re try: from CStringIO import StringIO except ImportError: from StringIO import Str

    3

    1答えて

    へのPDFは、私は、Pythonに新しいもの、CSVファイルにPDFファイルを変換できるようにしたいといくつかの便利なスクリプトを発見したけど、私は疑問を持っていますPDFと印刷するCSVファイル 私は、Python 2.7.11とPDFMiner 20140328.ここ import sys from pdfminer.pdfinterp import PDFResourceManager,

    5

    1答えて

    正規表現を使用してpdf内のテキストを検出できますか(pdfqueryや他のツールを使用して)? 私たちはこれを行うことができます知っている: pdf = pdfquery.PDFQuery("tests/samples/IRS_1040A.pdf") pdf.load() label = pdf.pq('LTTextLineHorizontal:contains("Cash")') lef

    0

    1答えて

    PDFQueryを使用してPDFをスクラップするのは初めてです。 私がする必要があるのは、いくつかのページを含む価格表から価格を取得することです。私はPDFQueryに製品コードを渡したいのです。コードを見つけて価格を返すべきです。問題は、Githubページの最初の例を使用するとテキストの位置がわかりますが、「名前がページ上のどこにあるのか、どのページにいるのかわからないことに注意してください」と

    5

    2答えて

    私はpdfファイルからテキストを抽出し、後でその参照を識別しようとしています。私はそのうまく動作して暗号化されていないファイルではpdfminer 20140328.を使用していますが、私は今、私が手ファイルだ: File "C:\Tools\Python27\lib\site-packages\pdfminer\pdfdocument.py", line 348, in _initialize_

    -2

    2答えて

    これは私がここで見つけたコードです。どのように使用するかわかりません。誰かがこれを通って私を歩いて、私はサンプルPDFを変換するのに役立つことができますか? from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from

    0

    1答えて

    私は、ユーザのデスクトップ上の画像やテキストを自動的にスキャンし、テキスト解析のために.txtファイルに変換するプログラムを作成しようとしています。 これまでのところ、PDFとHTMLを.txtに変換するソースコードが見つかりました。私はどんな提案が理解されるであろうように開始するために理解していない $pdf2txt.py samples/simple1.pdf :しかし、私は私のプログラム