私は主にテキストを抽出するためにGoogle Vision APIを使用しています。私は正常に動作しますが、入力行をスキャンするAPIが必要な特定の場合は、次の行に移動する前にテキストを吐き出します。しかし、APIは、左側で上から下にスキャンし、右側に移動してトップからボトムスキャンを行う何らかのロジックを使用しているようです。 APIが左から右に読んだり、下に移動したりするなど、私は好きだったでしょう。例えばテキスト抽出 - 行単位
、画像考える:
“ Name: John Doe DOB: 01-Jan-1970 Gender: M Lives In: LA ”
:私はこのような何かを期待しているだろう、一方で
“ Name DOB Gender: Lives In John Doe 01-Jan-1970 LA ”
:API
を次のようにテキストを返します。
ブロックサイズまたはmaを定義する方法があるとしますイメージ/スキャンを行単位で読み込む設定(?)?
ありがとうございました。 あなたも行あたりの境界に基づいてテキストを抽出することができアレックス
おかげで、それは1つの可能性です。 –