2016-07-06 6 views
0

数字について言えば、私はTesseract OCR for Kannadaフォント(Lohit KannadaとKedage)のトレーニングに問題があります。[lang] .traineddataファイル(Tesseract)にunicharambigsを含める

たとえば、0は8と認識されています。 unicharambigsファイルをインクルードする際に助けが必要でした(Githubのドキュメントでは、そのフォーマットのみについて説明しています)。unicharambigsファイルをインクルードしていても、私のoutput.txtファイルは変更されていません。

[lang]がkanに対応するとします。次のコマンドは、unicharambigsファイルをkan.traineddataファイルに含めますか?

combine_tessdata kan.

包みなさいそれは、私が同じを続行する方法に関するいかなる助けを感謝しません。

答えて

-1

あなたが使用しているtesseractkan.traineddataのバージョンがわからないのは難しいです。

kan.traineddataを解凍してkan.unicharabigsのバージョンを確認し、ファイルを編集した後に再結合することができます。

  • -u .traineddata PATHPREFIXが提供する接頭辞を使用して.traineddataをアンパック:

    は、コマンドの構文についてhttps://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc

    • 利用解凍する-uオプションを参照してください。

  • 使用ucharambigsを上書きする-oオプション:

    • -o .traineddata FILE…:コマンドラインで提供されるものと.traineddataファイルの指定されたコンポーネントを上書きします。

https://github.com/tesseract-ocr/langdata/blob/master/kan/kan.unicharambigsあなたはhttps://storage.googleapis.com/google-code-attachments/tesseract-ocr/issue-801/を変更することができeng.unicharambigs

+0

のコピーのようですのでご注意くださいcomment-6/kan.DangAmbigs.txtをunicharambigs形式に変換します。 https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract#the-unicharambigs-fileまたはunicharambigsファイルのフォーマットを参照してください。 – sdk

関連する問題