Googleの視覚によるテキスト検出応答を行単位で指定する

GoogleビジョンAPIを使用してレシート画像の文字認識を行っています。素晴らしい結果が返ってきましたが、戻り値が非常に信頼できない形式です。テキスト間に大きな隙間がある場合は、その横にある行の代わりに下の行が表示されます。Googleの視覚によるテキスト検出応答を行単位で指定する

4x Löwenbräu Original a 3,00 12,00 1 
    8x Weissbier dunkel a 3,30 26,401 
    3x Hefe-Weissbier a 3,30 9,90 1 
    1x Saft 0,25 
    1x Grosses Wasser 
    1x Vegetarische Varia 
    1x Gyros 
    1x Baby Kalamari Gefu 
    2x Gyros Folie 
    1x Schafskäse Ofen 
    1x Bifteki Metaxa 
    1x Schweinefilet Meta 
    1x St ifado 
    1x Tee 
    2,50 1 
    2,40 1 
    9,90 1 
    8,90 1 
    12,90 
    a 9,9019,80 1 
    6,90 1 
    11,90 1 
    13,90 1 
    14,90 1 
    2,10 1

だけでなく、予想されるとしての始まりが、その後など理想的な応答をテキストに価格を接続することでしょうしようとしたときに役立つかなりUNなる：私は応答の下に取得するには、次Recipt Imageと例えば

、

4x Löwenbräu Original a 3,00 12,00 1 
    8x Weissbier dunkel a 3,30 26,401 
    3x Hefe-Weissbier  a 3,30 9,90 1 
    1x Saft 0,25     2,50 1 
    1x Grosses Wasser    2,40 1 
    1x Vegetarische Varia   9,90 1 
    1x Gyros      8,90 1 
    1x Baby Kalamari Gefu  12,90 1 
    2x Gyros Folie   a 9,9019,80 1 
    1x Schafskäse Ofen   6,90 1 
    1x Bifteki Metaxa   11,90 1 
    1x Schweinefilet Meta  13,90 1 
    1x St ifado     14,90 1 
    1x Tee      2,10 1

またはそれに近い。

異なる応答を得るためにAPIに追加できる書式設定のリクエストはありますか？私はこの結果を達成するために出力形式を変更できるtessereactを使用して成功し、ビジョンAPIが類似しているかどうか疑問に思っていました。

私はapiが使用できる文字の座標を返すことを理解していますが、そのような深さに入る必要がないことを望んでいました。

出典

2017-10-03 Wrumble

JSONリクエストにfeatureヒントを追加できます。

{ 
    "requests": [ 
    { 
     "image": { 
     "source": { 
      "imageUri": "https://i.stack.imgur.com/TRTXo.png" 
     } 
     }, 
     "features": [ 
     { 
      "type": "DOCUMENT_TEXT_DETECTION" 
     } 
     ] 
    } 
    ] 
}

あなたは上記のJSONをコピーして、documentation page上このAPIを試してみてくださいペインにリクエストボディに貼り付けることができます。このようなレシートの画像について、DOCUMENT_TEXT_DETECTIONは、良好な結果を与えます。結果：

4x LOwenbräu Original a 3,00 12,00 1 
8x Weissbier dunkel a 3, 3026, 40 1 
3x Hefe-Weissbier a 3,30990 1 
1x Saft 0,25 2, 50 1 
1x Grosses Wasser 2, 40 1 
1x Vegetarische Varia 9,90 1 
1x Gyros 8,90 1 
1x Baby Kalamari Gefu 12,90 ! 
2x Gyros Folie a 9,9019, 80 1 
1x Schaf skäse Ofen 6,90 1 
1x Bifteki Metaxa 11,90 1 
1x Schweinefilet Meta 13,90 1 
1x Stifado 14, 90 1 
1x Tee 2, 10 1

現時点では、Googie VisionはTesseractよりもはるかに少ない設定可能です。 Googleは両方のプロジェクトの後ろにあるので、今後どのプロジェクトが優先されるのだろうか。

出典

2017-10-03 19:45:49

非常にありがとうございます！私は彼らがアプリケーションに組み込むために大きなものとして呼び出すことができるAPIとしてtesseractを作ることを望む。 – Wrumble

これは遅い回答かもしれませんが、将来の参考のために追加してください。非常に離れたテキストの場合、DOCUMENT_TEXT_DETECTIONは適切な行分割も行いません。

次のコードでは、文字のポリゴン座標に基づいた簡単な線分を行います。

https://github.com/sshniro/line-segmentation-algorithm-to-gcp-vision

出典

2018-01-16 10:20:09

Googleの視覚によるテキスト検出応答を行単位で指定する

答えて

関連する問題