pdfminer

0熱

1答えて

埋め込みPDFを抽出する - PDFInterpreterError：不明な演算子： '\ x00'

Scrapyを使用して、pdfをダウンロードしてバイナリファイルをメモリに読み込んで内容を抽出します。私は、PDFがのように見えるページに埋め込まれていることを実現： <embed id="plugin" type="application/x-google-chrome-pdf" src="http:xxx/DocumentInquiry.aspx?DocumentNo=12502" strea

1熱

1答えて

pdfminer pdf2textは 'FF'を出力します

私はpdfを持っています。私の勝利でpdfminer.six 10、のpython 3.6環境をインストールした後、私は走った： $ pdf2txt.py -o test1 download.pdf を私のスクリーンショット出力を与えます。私は実行すると： $ dumppdf.py -o test2 download.pdf 私が取得： <trailer> <dict size="4">

-4熱

2答えて

pythonでpdfminerを使用してpdfの総ページ数を取得する方法

PyPDF2でpdfreader.getNumPages()は私にpdfファイルの総ページ数を教えてくれます。どうすればpdfminerを利用できますか？

0熱

1答えて

pythonを使ってpdfのテキストボックス内のデータを読む

私は、テキストボックス、ラジオボタン、チェックボックスなどを含むpdfファイルを持っています。私はpdfminerまたはpypdf2を使用しようとすると、私はテキストボックス内のデータを削ることができません。添付の画像を参照してください。例えば：私はpdfminerを使用する場合が、私は "1）プログラム：" scraeすることができていますが、すべての

0熱

1答えて

PDFファイルから表データを抽出するためのソリューション

多くのPDF文書から多数のページで表データを抽出する必要がありました。 AdobeのAcrobat Readerからの内蔵テキストのエクスポート機能を使用することは役に立たず、そのように抽出されたテキストはテーブルによって確立された空間的関係を失います。他にも多くの疑問が提起されてきましたが、私が試したこの問題には多くの解決策がありましたが、結果は貧弱で恐ろしいものになりました。だから自分のソリュ

2熱

1答えて

が私のcmdウィンドウでのWindows 10

1熱

1答えて

Python pdfminer LAParamsはテキスト出力を混在させます

私はpdfファイルを持っていますが、pdfminerとのテキストを解析したいのです。問題はLAParamsが失敗し、最後に行の一部分を与えることがあります。プットアウト次のようになります：私のPDFファイルはこのようになります私のコードはここにある、事前に感謝： from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpre

0熱

1答えて

PDFMinerでPDFからテーブルを抽出するには？

私はpdfドキュメントの一部のテーブルから情報を抽出しようとしています。入力を考えてみましょう： Title 1 some text some text some text some text some text some text some text some text some text some text Table Title | Col1 | Col2 | Col3 |

0熱

1答えて

PDFMinerのバージョンは違いますか？ AttributeErrorの取得： 'PDFDocument'オブジェクトに属性 'seek'がありません

以前のSOの質問からPythonコードを削除しましたが、PDFMinerの以前のバージョン用にコードが書き込まれました。。私はすでに、エラーに対処するためにカップルの変更を行ったが、今、私は次のエラーを取得しています： C:\Users\xxxx\Documents\Programming\Python>pdfextractor.py Traceback (most recent call l