2016-12-23 18 views
2

私はまだTesseract OCRを初めて使っていて、スクリプトでそれを使った後、テキストを抽出しようとしていた画像のエラー率が比較的高いことがわかりました。私はTesseractの訓練に出くわしました。これはあなたが使用する特定のフォントの誤り率を減らすことができると思われます。私はあなたが指定したフォントのためのすべての訓練を行うAnylineによって動力を与えられるツールであるウェブサイト(http://ocr7.com/)に出くわしました。だから私は.traineddataファイルを受け取りました。私はそれをどうすればいいのかよく分かりません。誰でも私がこのファイルを使って何をしなければならないのか説明できましたか?あるいは、私はちょうどTesseractトレーニングを手動で行う方法を学ぶ必要があります。これは、AnylineのWebサイトによれば、1日の作業が必要になる場合があります。前もって感謝します。新しいフォントのためのTesseractのトレーニング

+0

この質問はどのようにPythonに関係していますか? – DyZ

答えて

3

これをまだ読んでいる人にとっては、このツールを使用して、必要なフォントの訓練データファイルを取得できます。その後、tessdataフォルダにtraineddataファイルを移動します。新しいフォントでtesseractをPythonや他の言語で使用するには、image_to_string関数の第2パラメータとしてlang = "Font"を入れます。それは精度を大幅に向上させますが、まだ間違いを犯す可能性があります。あるいは、このガイドで新しいフォントのtesseractを手動で調整する方法を学ぶことができます:http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/

+0

こんにちは、私はトレーニングのためのフォントファイルを作成する方法を知っていますか?たとえば、シリアル番号をOCRしたいデバイスが2つある場合、Tesseractをトレーニングするために、フォントファイルを作成するにはどうすればよいですか? – Joshua

関連する問題