pytesseractの結果がtesseractコマンドラインの結果と異なる

私は、Ubuntuでpytesseractとtesseractの両方のコマンドラインを使用して、スキャンしたページをテキストに変換しようとしています。結果は著しく異なります（pyesseractはtesseractコマンドラインよりも優れた性能を発揮します）、なぜ私は理解できません。私はパラメータのデフォルト値を調べ、tesseractコマンドライン（psmなど）のパラメータ値の一部を変更しようとしましたが、pytesseractと同じ結果を得ることができません。 pytesseractでの適切な文書化の不足のため、私はパラメータのデフォルト値がどのように使われているのか理解できません。pytesseractの結果がtesseractコマンドラインの結果と異なる

はここpytesseractのソースコードを見てみると、私のpytesseractコード print(pytesseract.image_to_string(Image.open('test.tiff'))

出典

2017-12-27 randomSampling

あり、画像が常にの.bmpファイルに変換されるようです。 Tesseractコマンドラインで.bmpファイルとpsmを6として使用すると、pytesseractと同じ結果が得られます。また、tesseractは圧縮されていないbmpファイルでのみ動作します。したがって、ImageMagickを使用して.pdfを.bmpに変換すると、次のように動作します。

convert -density 300 -quality 100 mypdf.pdf BMP3:mypdf.bmp 
tesseract mypdf.bmp -psm 6 mypdf txt

出典

2017-12-31 06:46:02 randomSampling

pytesseractの結果がtesseractコマンドラインの結果と異なる

答えて

関連する問題