2017-10-11 11 views
0

と、画像の特定の部分のみ:pictureパースたTesseract

私はこれを解析する際に、これが出力されます画像:

vb" 
22% BK-G4T ||||||||I||||I|||ii\|||\ 
’ 64 2007 
22?: 06.0"! 'm'lm Mm. 23212274 , 
v 2,0 dm’ 1 
pmn 0_5 bar tm ~25°C v‘40"(1 I 
1amp é 0_o1m’ sb15°cl :Sp 20°c l 
'I ELSTEQ~I¢¢>>InstrogwnSs HB Z _ 18 _ 1013 . ‘ 
a, 069373593435- 3 I 
i'23212214 Y _ w w V' 
g 

ガスメータの状態(この画像では06937)の最初の5桁を抽出します。

私の質問は、画像のこの部分だけを解析するためにTesseractを訓練する方法はありますか?すべての画像が異なるため、絶対座標はオプションではありません。私は最高のロジックが次のようなものになると推測しています:黒の背景に白い数字だけを解析します。

答えて

1

page segmentation mode (psm)を変更することにより、tesseract 4.00.00 alphaは、メーターラインの文字を他の文字とは別に、正確に06937598-m3として読み取ることができます。

使用するコマンドは次のとおりです。

tesseract meter.jpg output --psm 11 -l eng 

--psm 11"Sparse text. Find as much text as possible in no particular order"を認識することを意味します。

ここには、すべてのASCII制御文字を示すoutputファイルがあります。

enter image description here

他のメーター画像上--psm 11作品は、その後、あなただけの誰メートルラインの文字を抽出するために、行の末尾に-m3を検索する必要がある可能性があります。これで、すぐに最初の5桁を取得できます。

このヘルプが必要です。

+0

tesseract 4がアンドロイドをサポートしているかどうかはわかりません。私は私のプロジェクトでtess-twoを使用しています。このアプローチの問題点は、m3が時々見えないことです。 (例:https://i.stack.imgur.com/VYoZm.jpg)私は、OpenCVで必要な画像の部分を切り離してみるつもりです。 – HomeIsWhereThePcIs