2016-11-19 140 views
2

私はかなり単純な画像を持っていますが、tesseractは私に正解を与えることに成功していません。OCRのPython tesseractの精度を向上させる

コード:

pytesseract.image_to_string(image, lang='eng') 

enter image description here

例の絵は、それがより良いものを作る場合、私はまた、辞書に自分自身の言葉を追加しようとしました

SARVN PRIM E N EU ROPTICS\nBLU EPRINT 

の結果が得られますが、まだありません。

pytesseract.image_to_string(image, lang='eng', config="--user-words words.txt") 

マイ単語リストは、私は、問題にアプローチ多分私は予測する前に画像を変換する必要がありますどのようにこの

SARYN 
PRIME 
NEUROPTICS 
BLUEPRINT 

のように見えますか?テキストの色は数色の間で異なる場合がありますが、の背景は常に黒色です

答えて

1

OCRを試してみる前に、画像を反転して白黒背景に黒のテキストを得るために二値化/閾値処理を行ってみてください。

Pythonで画像を2進化する方法については、this postを参照してください。

もちろん、入力画像の品質が良く、テキストがシャープであれば、OCRの結果は良好になります。

私は外部ツールを使用して白を黒に変更し、下の画像を取得しました。

Inverted and Binarized

関連する問題