[lang] .traineddataファイル（Tesseract）にunicharambigsを含める

数字について言えば、私はTesseract OCR for Kannadaフォント（Lohit KannadaとKedage）のトレーニングに問題があります。[lang] .traineddataファイル（Tesseract）にunicharambigsを含める

たとえば、0は8と認識されています。 unicharambigsファイルをインクルードする際に助けが必要でした（Githubのドキュメントでは、そのフォーマットのみについて説明しています）。unicharambigsファイルをインクルードしていても、私のoutput.txtファイルは変更されていません。

[lang]がkanに対応するとします。次のコマンドは、unicharambigsファイルをkan.traineddataファイルに含めますか？

combine_tessdata kan.

包みなさいそれは、私が同じを続行する方法に関するいかなる助けを感謝しません。

出典

2016-07-06 Sukriti

-1

あなたが使用しているtesseractとkan.traineddataのバージョンがわからないのは難しいです。

kan.traineddataを解凍してkan.unicharabigsのバージョンを確認し、ファイルを編集した後に再結合することができます。

-u .traineddata PATHPREFIXが提供する接頭辞を使用して.traineddataをアンパック：

は、コマンドの構文についてhttps://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc
- 利用解凍する-uオプションを参照してください。
使用ucharambigsを上書きする-oオプション：
- -o .traineddata FILE…：コマンドラインで提供されるものと.traineddataファイルの指定されたコンポーネントを上書きします。

https://github.com/tesseract-ocr/langdata/blob/master/kan/kan.unicharambigsあなたはhttps://storage.googleapis.com/google-code-attachments/tesseract-ocr/issue-801/を変更することができeng.unicharambigs

出典

2016-09-01 05:18:53 sdk

のコピーのようですのでご注意くださいcomment-6/kan.DangAmbigs.txtをunicharambigs形式に変換します。 https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract#the-unicharambigs-fileまたはunicharambigsファイルのフォーマットを参照してください。 – sdk

[lang] .traineddataファイル（Tesseract）にunicharambigsを含める

答えて

関連する問題