数字について言えば、私はTesseract OCR for Kannadaフォント(Lohit KannadaとKedage)のトレーニングに問題があります。[lang] .traineddataファイル(Tesseract)にunicharambigsを含める
たとえば、0は8と認識されています。 unicharambigsファイルをインクルードする際に助けが必要でした(Githubのドキュメントでは、そのフォーマットのみについて説明しています)。unicharambigsファイルをインクルードしていても、私のoutput.txtファイルは変更されていません。
[lang]がkanに対応するとします。次のコマンドは、unicharambigsファイルをkan.traineddataファイルに含めますか?
combine_tessdata kan.
包みなさいそれは、私が同じを続行する方法に関するいかなる助けを感謝しません。
のコピーのようですのでご注意くださいcomment-6/kan.DangAmbigs.txtをunicharambigs形式に変換します。 https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract#the-unicharambigs-fileまたはunicharambigsファイルのフォーマットを参照してください。 – sdk