GoogleビジョンAPIを使用してレシート画像の文字認識を行っています。素晴らしい結果が返ってきましたが、戻り値が非常に信頼できない形式です。テキスト間に大きな隙間がある場合は、その横にある行の代わりに下の行が表示されます。Googleの視覚によるテキスト検出応答を行単位で指定する
4x Löwenbräu Original a 3,00 12,00 1
8x Weissbier dunkel a 3,30 26,401
3x Hefe-Weissbier a 3,30 9,90 1
1x Saft 0,25
1x Grosses Wasser
1x Vegetarische Varia
1x Gyros
1x Baby Kalamari Gefu
2x Gyros Folie
1x Schafskäse Ofen
1x Bifteki Metaxa
1x Schweinefilet Meta
1x St ifado
1x Tee
2,50 1
2,40 1
9,90 1
8,90 1
12,90
a 9,9019,80 1
6,90 1
11,90 1
13,90 1
14,90 1
2,10 1
だけでなく、予想されるとしての始まりが、その後など理想的な応答をテキストに価格を接続することでしょうしようとしたときに役立つかなりUNなる:私は応答の下に取得するには、次Recipt Imageと例えば
、
4x Löwenbräu Original a 3,00 12,00 1
8x Weissbier dunkel a 3,30 26,401
3x Hefe-Weissbier a 3,30 9,90 1
1x Saft 0,25 2,50 1
1x Grosses Wasser 2,40 1
1x Vegetarische Varia 9,90 1
1x Gyros 8,90 1
1x Baby Kalamari Gefu 12,90 1
2x Gyros Folie a 9,9019,80 1
1x Schafskäse Ofen 6,90 1
1x Bifteki Metaxa 11,90 1
1x Schweinefilet Meta 13,90 1
1x St ifado 14,90 1
1x Tee 2,10 1
またはそれに近い。
異なる応答を得るためにAPIに追加できる書式設定のリクエストはありますか?私はこの結果を達成するために出力形式を変更できるtessereactを使用して成功し、ビジョンAPIが類似しているかどうか疑問に思っていました。
私はapiが使用できる文字の座標を返すことを理解していますが、そのような深さに入る必要がないことを望んでいました。
非常にありがとうございます!私は彼らがアプリケーションに組み込むために大きなものとして呼び出すことができるAPIとしてtesseractを作ることを望む。 – Wrumble