pyocrをPillowおよびOpenCVとともに使用して、PDFドキュメントからテキストを抽出しています。ただし、PDF文書は、フォームの項目のラベルが文書の一番左側にあり、項目の値が文書の右側にあることを意味するフォームです。例は(間隔のために追加されたドットですが、イメージには存在しません)Pyocrで文字の向きを左から右に変更
オレンジの価格:....................... ............... $ 15.75
りんごの価格:..........................私はテキストに画像を変換すると............. $ 12.51
が、それは次のようになります。オレンジの
価格:リンゴの/ nprice/N $ 15.75/N $ 12.51
基本的に、テキストは上から下、そして左から右、左から - 右から上 - 下。
この問題をオンラインで調査したところ、テキストの方向を検出する方法を強調する多くの回答がありますが、私はテキストをすべてのケースで左から右に流したいと思っています。だから、私の質問は、それは常に左から右にテキストを読み込むようにpyocrのデフォルト設定を変更する方法があるということです。オレンジの
価格:りんごの$ 15.75/N 価格:
def image_to_OCR(req_image_list,final_text):
tool = pyocr.get_available_tools()[0]
for img in req_image_list:
txt = tool.image_to_string(
PI.open(io.BytesIO(img)),
lang='eng',
builder=pyocr.builders.TextBuilder()
)
final_text.append(txt)
return(final_text)
:$ここで/ N
12.51私は現在、pyocrのために使っていたコードである私は私の変換されたテキストは、次のようになりたいです