2017-09-15 21 views
3

Google Cloud Vision APIの「TEXT_DETECTION」オプションを使用して一部の画像をOCRしています。Google Cloud Vision OCR APIがバウンディングボックス/頂点の不適切な値を返す

個々の文字の周囲にある境界ボックスは、正確でない場合もあり、時には同じ画像内にない場合もあります。

これはビジョンアルゴリズムの確率的な性質、Vision APIのバグ、または私がその応答をどのように解釈しているのかという問題の通常の副作用ですか?

Image annotated with text and bounding boxes from Google Vision OCR API

The letter "a" with poor bounding box

ここで私はバウンディングボックスを抽出していたから、文字「A」に特異的な応答の一部です。

stdClass Object 
(
    [property] => stdClass Object 
     (
      [detectedLanguages] => Array 
       (
        [0] => stdClass Object 
         (
          [languageCode] => en 
         ) 

       ) 

     ) 

    [boundingBox] => stdClass Object 
     (
      [vertices] => Array 
       (
        [0] => stdClass Object 
         (
          [x] => 419 
          [y] => 304 
         ) 

        [1] => stdClass Object 
         (
          [x] => 479 
          [y] => 304 
         ) 

        [2] => stdClass Object 
         (
          [x] => 479 
          [y] => 397 
         ) 

        [3] => stdClass Object 
         (
          [x] => 419 
          [y] => 397 
         ) 

       ) 

     ) 

    [text] => a 
) 

答えて

0

ここでは、Google vs Azure vs OCR.spaceの出力を比較することができます。..多分他のものは、あなたの目的のために良い仕事しますか? (しかし、私はそれを疑う)

は、すべてのOCRサービスが表示され、私のテストから、これは、ビジョンAPIのバグ、ビジョンアルゴリズムの確率的な性質の通常の副作用です

今日と同じ問題ですが、時には完全に細かい文字や言葉を検出することができません。

+0

Tim。役に立つと思われるあなたの応答とリンクに感謝します。しかし、私の質問は、文字の周りの境界ボックスについてであり、検出率や正確さに関するものではありませんでした。 –

関連する問題