2017-11-07 13 views
0

私はいくつかのpdfファイルを持っています。私はテキストを抽出したいのですが、pyPDF2、pdfminerのような関連するすべてのライブラリを使っています。 tesseractとimagemagickも進めました。 Imagemagickは変換されたjpg形式のpdfページのほとんどを黒字化しますが、これはtesseractによって読み取られません。Python - PDFを読む

問題は、テキスト/段落が抽出されているうちに、ライブラリが全体を抽出していないことです。たとえば、一部のpdfファイルでは、テキスト全体が抽出されていますが、他のpdfファイルでは、段落全体から数行だけが抽出されています。

私が知りたいのは、他の方法があれば、テキストを抽出するためのPythonですか? しかし、私は、オンラインソースからjpgにpdfを変換した後、変換されたjpgファイルでtesseractを使用したときに、すべてのテキストを抽出することができました。しかし、その方法は実際には実現可能ではありません。

+0

どのバージョンを確認してください?あなたのPDFのRGB色空間ではなくCMYKでしたか?密度を十分大きくしましたか?アルファチャンネルを無効にしましたか? 'convert -density 300 -colorspace RGB image.pdf -alpha off image.jpg'を試してください。しかし、JPGは非可逆圧縮ですので、出力PNGまたはTIF – fmw42

答えて

0

イメージを平坦化し、背景を白く指定し、コマンドラインのドキュメントで指定されている他のプロトコルも使用するようにしてください。遊ぶためのたくさんのオプションがあります。私はあなたの状況が異なるかもしれませんが、これで良い結果を見つけました。

出力がOCRで十分に読み込めるようになるまで、出力を確認したい場合があります。

magick -colorspace gray filename.ppm 
-density 300 -depth 8 -flatten -auto-orient -auto-level -rotate -90> output.tif 

詳細なヘルプについては、ImageMagickののhere