pdfminer

0熱

1答えて

私は、複雑な（表、図）と非常に長いpdfをhtmlに変換するためにpdfminerを使用しました。結果をさらに解析したい（たとえば、テーブルや段落を抽出するなど）、nltkのsentence tokenizerを使用してさらに分析を行いたいとします。この目的のために、私は解析を行う方法を理解するために、HTMLファイルをテキストファイルに保存します。残念ながら、私のコードは、TXTにHTMLを書き

0熱

1答えて

Python 3の以前のCStringIOおよびString IO関数を回避するPdfinterp（Pdfminer）

pdfminerツールを使用して、pdfを.csv（テキスト）に変換し、ツールのサブコマンドの1つであるCStringIOおよびStringIOを引き続き使用します。文字列から文字列への変換 - import re try: from CStringIO import StringIO except ImportError: from StringIO import Str

3熱

1答えて

PythonのPDFMInerはCSV

へのPDFは、私は、Pythonに新しいもの、CSVファイルにPDFファイルを変換できるようにしたいといくつかの便利なスクリプトを発見したけど、私は疑問を持っていますPDFと印刷するCSVファイル私は、Python 2.7.11とPDFMiner 20140328.ここ import sys from pdfminer.pdfinterp import PDFResourceManager,

5熱

1答えて

pdfqueryで正規表現を使用することはできますか？

正規表現を使用してpdf内のテキストを検出できますか（pdfqueryや他のツールを使用して）？私たちはこれを行うことができます知っている： pdf = pdfquery.PDFQuery("tests/samples/IRS_1040A.pdf") pdf.load() label = pdf.pq('LTTextLineHorizontal:contains("Cash")') lef

0熱

1答えて

PDFQuery：要素が配置されているページ番号

PDFQueryを使用してPDFをスクラップするのは初めてです。私がする必要があるのは、いくつかのページを含む価格表から価格を取得することです。私はPDFQueryに製品コードを渡したいのです。コードを見つけて価格を返すべきです。問題は、Githubページの最初の例を使用するとテキストの位置がわかりますが、「名前がページ上のどこにあるのか、どのページにいるのかわからないことに注意してください」と

5熱

2答えて

PDF Miner PDFEncryptionError

私はpdfファイルからテキストを抽出し、後でその参照を識別しようとしています。私はそのうまく動作して暗号化されていないファイルではpdfminer 20140328.を使用していますが、私は今、私が手ファイルだ： File "C:\Tools\Python27\lib\site-packages\pdfminer\pdfdocument.py", line 348, in _initialize_

-2熱

2答えて

PDFminerを使用して、PDFから.textファイルにテキストを抽出します。コードを見つけましたが、使用方法はわかりません

これは私がここで見つけたコードです。どのように使用するかわかりません。誰かがこれを通って私を歩いて、私はサンプルPDFを変換するのに役立つことができますか？ from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from

0熱

1答えて

Pythonでデクストップスクリーニングを自動化する

私は、ユーザのデスクトップ上の画像やテキストを自動的にスキャンし、テキスト解析のために.txtファイルに変換するプログラムを作成しようとしています。これまでのところ、PDFとHTMLを.txtに変換するソースコードが見つかりました。私はどんな提案が理解されるであろうように開始するために理解していない $pdf2txt.py samples/simple1.pdf ：しかし、私は私のプログラム