Tesseractを採用しているAndroidアプリでいくつかのeng.traineddata
ファイルを試したところ、私のアプリケーションはフォント(太字、太字)をいくつか使うだけなので、私自身のデータを構築することで、はるかに高い精度を得ることができたと思います。ユーザーがの写真を撮るになるものの種類(8.5×11インチの紙)の例はここにある:それは調査するための適切なパスであった場合 知られているレイアウトとフォントでOCRデータを構築する方法
私はjTessBoxEditorに見えたが、疑問に思っています。もしそうなら、私は出発点に関してどのように進めるか、最初から試してみるかを確信していた。フォント(Times New Romanのように見える)は非常に一般的であり、ホイールを再発明したくありませんでした。私はまた、2つの異なる色の背景にフォントをどのように扱うかについても疑問を抱いていました。
また、Times New RomanフォントでABC ... abc ... 123 ...を印刷してカスタムeng.traineddata
ファイルにすることができたかどうかは疑問でした。私が正しく理解していれば、あなたのシステムを訓練するために使用されるソース資料に「最もクリーンな」データ(すなわち、文字の「悪い例」がない)が必要です。しかし、特定のフォント用に訓練されたデータを構築する方法について定義されたチュートリアルやプロシージャがあるかのように見えます。もしあれば、それは私を逃れている。