2017-02-09 6 views
0

私はtesseractを使用して画像からテキストを取得しています。私はtesseractを訓練し、画像の正確なフォントである新しい言語を作成し、訓練データには数字だけを含めました。訓練データには、画像内に存在する可能性のあるすべての値も含まれており、具体的には1〜5000であり、同じ値の単語リストも作成されています。しかし、それはまだ1と7だけでなく、時には3と8も混ざります。誰かが、私が別々に再トレーニングするべきか、またはそれをtesseractに与える前に画像上で何らかの処理を行うべきかについての推奨事項はありますか?Tesseractは、正確なフォントのトレーニングにもかかわらず "1"と "7"を混ぜる

+0

問題の理解に役立つようにサンプル画像、tesseractコマンド、および出力を追加するように編集できますか? – thewaywewere

答えて

1
  1. あなたがテッサーアクトに提供するトレーニングテキストには、少なくとも20文字のインスタンスがあることを確認してください。私はまともな訓練のサンプルサイズを持つために同じフォントの少なくとも6ページを与える。

2.Tesseractテキスト認識は、画質によっても異なります。可能な前処理アルゴリズムを確認してください:Improve Quality of Tesseract

  1. number_dawgファイルをご覧ください。これを変更すると、数字の認識に役立ちます。
関連する問題