私は視覚障害のある友人を助けるプロジェクトに取り組んでいます。パイソンスクリプトはまず1秒ごとにスクリーンショットを撮り、画像にあるものはテキストに変換され、 curserの座標に最も近い文字が出力になります。OCRと各文字の画像の関連付け
ユーザーはスクリーン上の任意の場所にカーソルを移動することができ、カーソルの最も近いアルファベットがプログラムの出力になります。
出力の形式について心配する必要はありませんが、フォームのオーディオになります。しかし、質問の簡潔さのために、それが単一の文字テキストの形であると仮定することができます。
すべてのチュートリアルOCRの依存関係を使用してすべてのテキストを連続したテキストファイルに変換する方法を説明したチュートリアルがあります。
私の特定のアプリケーションでは、各アルファベットは特定の座標に関連付けられます。しかし、私はちょうど画像上の変換された文字の位置を特定する方法を学ぶための単一のリソースを見つけることができませんでした。
画像から文字の座標を抽出する方法を教えてください。