2017-07-01 25 views
0

pyocrをPillowおよびOpenCVとともに使用して、PDFドキュメントからテキストを抽出しています。ただし、PDF文書は、フォームの項目のラベルが文書の一番左側にあり、項目の値が文書の右側にあることを意味するフォームです。例は(間隔のために追加されたドットですが、イメージには存在しません)Pyocrで文字の向きを左から右に変更

オレンジの価格:....................... ............... $ 15.75

りんごの価格:..........................私はテキストに画像を変換すると............. $ 12.51

が、それは次のようになります。オレンジの

価格:リンゴの/ nprice/N $ 15.75/N $ 12.51

基本的に、テキストは上から下、そして左から右、左から - 右から上 - 下。

この問題をオンラインで調査したところ、テキストの方向を検出する方法を強調する多くの回答がありますが、私はテキストをすべてのケースで左から右に流したいと思っています。だから、私の質問は、それは常に左から右にテキストを読み込むようにpyocrのデフォルト設定を変更する方法があるということです。オレンジの

価格:りんごの$ 15.75/N 価格:

def image_to_OCR(req_image_list,final_text): 
tool = pyocr.get_available_tools()[0] 
for img in req_image_list: 
    txt = tool.image_to_string(
     PI.open(io.BytesIO(img)), 
     lang='eng', 
     builder=pyocr.builders.TextBuilder() 
    ) 
    final_text.append(txt) 
return(final_text) 
:$ここで/ N

12.51私は現在、pyocrのために使っていたコードである私は私の変換されたテキストは、次のようになりたいです

答えて

0

tesseractは、列ベースの画像であってもOCRを行うようにされています。したがって、向きを指定することはできません。 あなたは90で画像を回転させることができ、その後、

または

OCRあなたは配列に画像を変換するnumpyを使用することができ、その後、画像を保存し、OCRを行い、その後、空の行に基づいて画像を分割します。

関連する問題