私はAndroidアプリでOCRにtesseractを使用しています。私は中国語に焦点を合わせていますが、jTessBoxEditorを使用して.traineddataファイルを作成することを考えていたので、いくつかのキーワードを認識する必要があります。私は中国の伝統的なTessDataファイルがどのようなフォントを使用しているのか知りたかったのですか? https://github.com/tesseract-ocr/tessdataTesseract TessDataトレーニングに使用するフォント
また、いくつかのキーワードしか認識しないようにchi_tra.traineddataファイルを編集する方法はありますか?私がこれをやっている主な理由は、ファイルサイズが63.4 MBで、tesseractが終了するまでに2〜3分かかるからです。精度は素晴らしいですが遅いです。