pdfminer

    0

    1答えて

    Scrapyを使用して、pdfをダウンロードしてバイナリファイルをメモリに読み込んで内容を抽出します。私は、PDFがのように見えるページに埋め込まれていることを実現: <embed id="plugin" type="application/x-google-chrome-pdf" src="http:xxx/DocumentInquiry.aspx?DocumentNo=12502" strea

    1

    1答えて

    私はpdfを持っています。私の勝利でpdfminer.six 10、のpython 3.6環境をインストールした後、私は走った: $ pdf2txt.py -o test1 download.pdf を私のスクリーンショット出力を与えます。私は実行すると: $ dumppdf.py -o test2 download.pdf 私が取得: <trailer> <dict size="4">

    -4

    2答えて

    PyPDF2でpdfreader.getNumPages()は私にpdfファイルの総ページ数を教えてくれます。 どうすればpdfminerを利用できますか?

    0

    1答えて

    私は、テキストボックス、ラジオボタン、チェックボックスなどを含むpdfファイルを持っています。私はpdfminerまたはpypdf2を使用しようとすると、私はテキストボックス内のデータを削ることができません。 添付の画像を参照してください。例えば :私はpdfminerを使用する場合 が、私は "1)プログラム:" scraeすることができていますが、すべての

    0

    1答えて

    多くのPDF文書から多数のページで表データを抽出する必要がありました。 AdobeのAcrobat Readerからの内蔵テキストのエクスポート機能を使用することは役に立たず、そのように抽出されたテキストはテーブルによって確立された空間的関係を失います。他にも多くの疑問が提起されてきましたが、私が試したこの問題には多くの解決策がありましたが、結果は貧弱で恐ろしいものになりました。だから自分のソリュ

    2

    1答えて

    にpdfminer.sixをインストールすることはできません、私は pip install pdfminer.six を入力し、それは私にこれらのエラーを与えます。 Microsoft Windows [Version 10.0.15063] (c) 2017 Microsoft Corporation. All rights reserved. C:\Users\Eric Kim>pi

    1

    1答えて

    私はpdfファイルを持っていますが、pdfminerとのテキストを解析したいのです。問題はLAParamsが失敗し、最後に行の一部分を与えることがあります。プットアウト 次のようになります:私のPDFファイルはこのようになります私のコードはここにある 、事前に感謝: from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpre

    0

    1答えて

    私はpdfドキュメントの一部のテーブルから情報を抽出しようとしています。 入力を考えてみましょう: Title 1 some text some text some text some text some text some text some text some text some text some text Table Title | Col1 | Col2 | Col3 |

    0

    1答えて

    以前のSOの質問からPythonコードを削除しましたが、PDFMinerの以前のバージョン用にコードが書き込まれました。 。私はすでに、エラーに対処するためにカップルの変更を行ったが、今、私は次のエラーを取得しています: C:\Users\xxxx\Documents\Programming\Python>pdfextractor.py Traceback (most recent call l