PDFファイルを読み込もうとしていますので、イメージとして抽出できます。私はPythonでいくつかのパッケージを試しました。 PyPDF2が、 "指定された場所にxrefテーブルを見つけることができませんでした"というメッセージが表示されるたびに表示されます。x-refテーブルが見つかりませんでした。PDF
私はPDFとPythonの経験がありませんので、どんなヒントもありがとうございます。サンプルファイルは、ここで与えられている:PDFが「完全なアカウントのリンクです
https://beta.companieshouse.gov.uk/company/00002404/filing-history
を。
事前に感謝します。
ありがとうございました。ここに私の回避策はありますか?テキストを抽出するためにイメージに変換したいだけです。 –
Adobe ReaderでPDFを開きます。もう一度閉じると、Adobe Readerは保存するかどうかを尋ねます。保存されたコピーが修復されます。ただし、Adobe ReaderがPDF 1.5で利用可能な機能を利用してファイルを保存している可能性がありますが、まだそれらの機能を処理できないツールやライブラリがあります。また、Adobe Readerから画像にコピーすることもできますあなたが選んだプログラム。 – mkl
ありがとう、私は助言に感謝します:)これを自動化するための良い方法があるかどうか知りたいですか?私は何千もの同様のファイルを扱うことができました。 –