スキャンされたTIFF画像から文字を読み取るプログラムをJavaで作成しましたが、精度はあまり良くありません。どのように3つの異なる手書きで同じ数字のtesseract-ocrを訓練するのですか?
文書の手書きを変更した場合、結果は少し異なります。 tesseract-ocrを訓練する方法はありますか?
jtessEditorBoxも使用しましたが、そこには何も役立ちません。
スキャンされたTIFF画像から文字を読み取るプログラムをJavaで作成しましたが、精度はあまり良くありません。どのように3つの異なる手書きで同じ数字のtesseract-ocrを訓練するのですか?
文書の手書きを変更した場合、結果は少し異なります。 tesseract-ocrを訓練する方法はありますか?
jtessEditorBoxも使用しましたが、そこには何も役立ちません。
私はあなたがこのポストを掘ることをお勧め: http://www.tuxrincon.com/blog/training-tesseract-ocr/
は、各手書き用の画像を取得します。 複数の写真に「QT Box Editor」を使用して、ボックスに文字を関連付ける。 その後、 "train.sh"スクリプトを使ってトレーニングするために、それらをtesseractに与えます(いくつかの間違いを修正するかもしれません)。 私は "train2.sh"を使用しませんでした。なぜなら、私の場合は逆効果に見えるからです。 すべてのhandwritings traineddataファイルをtesseract設定ファイルに追加します。 "QT Box Editor"の設定を変更して、手書きを別の言語で設定することができます。