2017-12-27 31 views
0

私は、Ubuntuでpytesseractとtesseractの両方のコマンドラインを使用して、スキャンしたページをテキストに変換しようとしています。結果は著しく異なります(pyesseractはtesseractコマンドラインよりも優れた性能を発揮します)、なぜ私は理解できません。私はパラメータのデフォルト値を調べ、tesseractコマンドライン(psmなど)のパラメータ値の一部を変更しようとしましたが、pytesseractと同じ結果を得ることができません。 pytesseractでの適切な文書化の不足のため、私はパラメータのデフォルト値がどのように使われているのか理解できません。pytesseractの結果がtesseractコマンドラインの結果と異なる

はここpytesseractのソースコードを見てみると、私のpytesseractコード print(pytesseract.image_to_string(Image.open('test.tiff'))

答えて

0

あり、画像が常にの.bmpファイルに変換されるようです。 Tesseractコマンドラインで.bmpファイルとpsmを6として使用すると、pytesseractと同じ結果が得られます。 また、tesseractは圧縮されていないbmpファイルでのみ動作します。したがって、ImageMagickを使用して.pdfを.bmpに変換すると、次のように動作します。

convert -density 300 -quality 100 mypdf.pdf BMP3:mypdf.bmp 
tesseract mypdf.bmp -psm 6 mypdf txt