Python - PDFを読む - 優秀な図書館

私はいくつかのpdfファイルを持っています。私はテキストを抽出したいのですが、pyPDF2、pdfminerのような関連するすべてのライブラリを使っています。 tesseractとimagemagickも進めました。 Imagemagickは変換されたjpg形式のpdfページのほとんどを黒字化しますが、これはtesseractによって読み取られません。Python - PDFを読む

問題は、テキスト/段落が抽出されているうちに、ライブラリが全体を抽出していないことです。たとえば、一部のpdfファイルでは、テキスト全体が抽出されていますが、他のpdfファイルでは、段落全体から数行だけが抽出されています。

私が知りたいのは、他の方法があれば、テキストを抽出するためのPythonですか？しかし、私は、オンラインソースからjpgにpdfを変換した後、変換されたjpgファイルでtesseractを使用したときに、すべてのテキストを抽出することができました。しかし、その方法は実際には実現可能ではありません。

出典

2017-11-07 Apurv Anand

どのバージョンを確認してください？あなたのPDFのRGB色空間ではなくCMYKでしたか？密度を十分大きくしましたか？アルファチャンネルを無効にしましたか？ 'convert -density 300 -colorspace RGB image.pdf -alpha off image.jpg'を試してください。しかし、JPGは非可逆圧縮ですので、出力PNGまたはTIF – fmw42

イメージを平坦化し、背景を白く指定し、コマンドラインのドキュメントで指定されている他のプロトコルも使用するようにしてください。遊ぶためのたくさんのオプションがあります。私はあなたの状況が異なるかもしれませんが、これで良い結果を見つけました。

出力がOCRで十分に読み込めるようになるまで、出力を確認したい場合があります。

magick -colorspace gray filename.ppm 
-density 300 -depth 8 -flatten -auto-orient -auto-level -rotate -90> output.tif

詳細なヘルプについては、ImageMagickののhere

出典

2017-11-07 20:04:34

Python - PDFを読む

答えて

関連する問題