私はいくつかのpdfファイルを持っています。私はテキストを抽出したいのですが、pyPDF2、pdfminerのような関連するすべてのライブラリを使っています。 tesseractとimagemagickも進めました。 Imagemagickは変換されたjpg形式のpdfページのほとんどを黒字化しますが、これはtesseractによって読み取られません。Python - PDFを読む
問題は、テキスト/段落が抽出されているうちに、ライブラリが全体を抽出していないことです。たとえば、一部のpdfファイルでは、テキスト全体が抽出されていますが、他のpdfファイルでは、段落全体から数行だけが抽出されています。
私が知りたいのは、他の方法があれば、テキストを抽出するためのPythonですか? しかし、私は、オンラインソースからjpgにpdfを変換した後、変換されたjpgファイルでtesseractを使用したときに、すべてのテキストを抽出することができました。しかし、その方法は実際には実現可能ではありません。
どのバージョンを確認してください?あなたのPDFのRGB色空間ではなくCMYKでしたか?密度を十分大きくしましたか?アルファチャンネルを無効にしましたか? 'convert -density 300 -colorspace RGB image.pdf -alpha off image.jpg'を試してください。しかし、JPGは非可逆圧縮ですので、出力PNGまたはTIF – fmw42