私は、Ubuntuでpytesseractとtesseractの両方のコマンドラインを使用して、スキャンしたページをテキストに変換しようとしています。結果は著しく異なります(pyesseractはtesseractコマンドラインよりも優れた性能を発揮します)、なぜ私は理解できません。私はパラメータのデフォルト値を調べ、tesseractコマンドライン(psmなど)のパラメータ値の一部を変更しようとしましたが、pytesseractと同じ結果を得ることができません。 pytesseractでの適切な文書化の不足のため、私はパラメータのデフォルト値がどのように使われているのか理解できません。pytesseractの結果がtesseractコマンドラインの結果と異なる
はここpytesseractのソースコードを見てみると、私のpytesseractコード print(pytesseract.image_to_string(Image.open('test.tiff'))