2012-05-01 7 views
1

OCRを含むプロジェクトを完了しようとしています。仕事のために私はTesseract OCRを選んだが、結果は最適ではなかった。私は文字セットを1234567890-に制限しようとしましたが、結果は良くありません。この種の文字列をよりよく認識するためにTesseractを訓練するために使用できる最適な画像サイズがありますか? PhoneOCRはTesseractで電話番号を読む

その結果たTesseract戻る正しくない05175150152で、画像がどのような方法で変更されていないので、それは良いはず:

画像は、これがあります。私は、次のコマンドでExecでPHPを通じてたTesseractを使用します。私が間違っているのかについて

"C:\Program Files\Tesseract-OCR\tesseract.exe" C:\wamp\www\a 
dwords\phones\center_ctl09_ctl04.png sssd -l eng -psm 7 nobatch letters 

任意のアイデア?

+0

私が行ったことは、tesseractをインストールすることです。トレーニングがある場合は、それを実行する必要があります。 – Evan

+1

あなたが提供する画像は、tesseractには小さすぎます。より大きな(サイズとDPIの)イメージを取得し、前処理機能を追加する必要があります(詳しくはこれを見てください)。http://stackoverflow.com/questions/10188116/trouble-recognizing-digits-in-tesseract-android/10188704# 10188704)。あるいは、より正確なSDKを探してください。 PHPでできることはあまりありませんが、まだまだ良い選択肢があります。これは役立つかもしれません:http://stackoverflow.com/questions/8753413/optical-character-recognition-for-web-use/8800923#8800923 – Nikolay

答えて

3

96 DPIの画像解像度は、どのOCRエンジンでも厳しいです。それを300 DPIに再スケーリングしようとすると、より良い結果が得られます。

さらに、JPEGは損失の多い画像形式です。可能であれば、TIFFやPNGのような別のものを使用してください。

関連する問題