2017-04-06 39 views
0

私はAndroidアプリでOCRにtesseractを使用しています。私は中国語に焦点を合わせていますが、jTessBoxEditorを使用して.traineddataファイルを作成することを考えていたので、いくつかのキーワードを認識する必要があります。私は中国の伝統的なTessDataファイルがどのようなフォントを使用しているのか知りたかったのですか? https://github.com/tesseract-ocr/tessdataTesseract TessDataトレーニングに使用するフォント

また、いくつかのキーワードしか認識しないようにchi_tra.traineddataファイルを編集する方法はありますか?私がこれをやっている主な理由は、ファイルサイズが63.4 MBで、tesseractが終了するまでに2〜3分かかるからです。精度は素晴らしいですが遅いです。

答えて

1

tesseractgithubのすべてのファイルfont_propertiesが見つかりました。リストからサポートされている伝統的な中国固有のフォントをチェックすることができます。

githubの中にフォルダheretesseract-ocr/langdataからは、訓練のために使用されている単語を見つけることがchi_tra.wordlistchi_tra内部のフォルダを確認することができます。

関連する問題