Google Vision APIのTEXT_DETECTIONに興味があり、印象的です。しかし、TEXT_DETECTIONはテキストが英語である場合にのみ正確に結果を出すようです。私の場合、TEXT_DETECTIONは、特定の言語(例えば、ベトナム語の場合)の広告バナーの検出テキストなど、非常に狭いコンテキストで使用したいと考えています。より正確な結果を得るために、私自身のデータ収集で機械を訓練することはできますか?これを実装する方法は?特定の言語のGoogle Vision APIのTEXT_DETECTIONを改善する方法
Google Vision APIのTEXT_DETECTIONに加えて、GoogleにはTesseractの依存関係を使用するGoogleの光学式文字認識(OCR)ソフトウェアもあります。私が知っているように、彼らはテキストを検出するためのさまざまなアルゴリズムを持っています。私は画像からテキストを読むためにGoogle DocsとTEXT_DETECTIONの両方を使っていました。 Google Docsは良い結果をもたらしましたが、Vision APIは良い結果をもたらしませんでした。なぜGoogle Vision APIはGoogle OCRの利点を継承しないのですか?
私はGoogle Vision APIのテキスト検出についてさらに詳しく説明したいと思います。おそらくGoogleエキスパートであれば、これはと読むことができます。 「この画像の言葉は斜めではっきりしていませんが、OCRは言葉とその位置を正しく抽出し、発表者のTシャツで「ビーコン」という言葉を取り上げます。 。しかし、私の写真の一部については、何が起こったのは本当に面白かったです。例えば、this picとすると、 "Kem Oxit"という言葉さえも写真の中央で非常に大きく、認識されませんでした。またはthis picでは、写真の中央にある赤い文字「HOAチャットNGOCベト」も認識されませんでした。テキスト検出アルゴリズムに問題があるはずです。
はい、私はLanguageHintsを見つけて試しましたが、結果は同じでした。 。 –
残念ながら私は他の多くの選択肢はないと思います。また、[Google Group](https://groups.google.com/forum/#!forum/cloud-vision)のVision APIチームにお問い合わせください-discuss)、おそらく、画像のスケーリング/品質を最適化するためのヒントを与えることができます。たぶん大規模なデータセットがあるとすれば、モデルを改善するためにデータを使用することに興味があるかもしれませんが、これは純粋に投機的です。 – Fematich