2017-10-04 6 views
0

手書き数字のPython 2.7 OCRのコードの約55行に簡単な問題があるかもしれません。私はブログからこのコードを入手し、それを趣味目的で使用しています。私はcv2、sklearn、skimage、numpyを利用して数字認識を支援しています。Python OpenCV OCRディジット配列がforループで順番に印刷されない

ここでコードについて簡単な質問があります。forループの最後に、sklearnからnumpy配列に「認識」された番号を追加します。これは問題なく動作しますが、数字はすべて順不同です。たとえば、アップロードした画像に手書きの「9 8 7 5 4 3」と表示された場合、[5、4、3、9、7、8]と表示されます。

私はしばらくこのことを見てきました。私はなぜそれが "順不同"でループしているのか分かりません。私はそれがOpenCVが数字を検出しているのか、それともSklearnの機能であるのか、あるいは単純な論理問題であるのかどうかはわかりません。

# Import the modules 
import cv2 
from sklearn.externals import joblib 
from skimage.feature import hog 
import numpy as np 

# Load the classifier 
clf = joblib.load("digits_cls.pkl") 

# Read the input image 
im = cv2.imread("4.jpg") 

# Convert to grayscale and apply Gaussian filtering 
im_gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY) 
im_gray = cv2.GaussianBlur(im_gray, (5, 5), 0) 


# Threshold the image 
ret, im_th = cv2.threshold(im_gray, 90, 255, cv2.THRESH_BINARY_INV) 


cv2.imshow("Threshhold/gray", im_th) 

# Find contours in the image 
hier, ctrs, hier = cv2.findContours(im_th.copy(), cv2.RETR_EXTERNAL, 
cv2.CHAIN_APPROX_SIMPLE) 

# Get rectangles contains each contour 
rects = [cv2.boundingRect(ctr) for ctr in ctrs] 

# For each rectangular region, calculate HOG features and predict 
# the digit using Linear SVM. 

numlist = [] 
for rect in rects: 
    # Draw the rectangles 
    cv2.rectangle(im, (rect[0], rect[1]), (rect[0] + rect[2], rect[1] + 
    rect[3]), (0, 255, 0), 3) 
    # Make the rectangular region around the digit 
    leng = int(rect[3] * 1.6) 
    pt1 = int(rect[1] + rect[3] // 2 - leng // 2) 
    pt2 = int(rect[0] + rect[2] // 2 - leng // 2) 
    roi = im_th[pt1:pt1+leng, pt2:pt2+leng] 
    # Resize the image 
    roi = cv2.resize(roi, (28, 28), interpolation=cv2.INTER_AREA) 
    roi = cv2.dilate(roi, (3, 3)) 
    # Calculate the HOG features 
    roi_hog_fd = hog(roi, orientations=9, pixels_per_cell=(14, 14), cells_per_block=(1, 1), visualise=False) 
    nbr = clf.predict(np.array([roi_hog_fd], 'float64')) 
    cv2.putText(im, str(int(nbr[0])), (rect[0], rect[1]),cv2.FONT_HERSHEY_DUPLEX, 2, (0, 255, 255), 3) 


    # Appending output to array for further processing 
    number = (int(nbr[0])) 
    numlist.append(number) 

print numlist 

cv2.imshow("Resulting Image with Rectangular ROIs", im) 
#cv2.destroyAllWindows() 
cv2.waitKey() 

答えて

1

あなたは、OCRの前にxの値によってrectsを並べ替える必要があります: - ここに

は、コードは(配列に追加する私がいる問題は、一番最後にある)です。

rects = sorted(rects, key = lambda rect: rect[0] + rect[2]//2) 
+0

これは機能します。ありがとうございました! – freeflow488

関連する問題