ABBYY OCR SDKを使用して画像を処理しようとしましたが、in this questionというサンプルコードを使用していましたが、下のスクリーンショットでABBYY OCR SDKを使用して画像から不適切な座標を取得しました
私は、オーバーレイ(ワード「OCR」の上に黄色の矩形)を描きたい、時には矩形は非常に遠く離れた実際の単語から配置されます。
ABBYY OCR SDKを使用して画像を処理しようとしましたが、in this questionというサンプルコードを使用していましたが、下のスクリーンショットでABBYY OCR SDKを使用して画像から不適切な座標を取得しました
私は、オーバーレイ(ワード「OCR」の上に黄色の矩形)を描きたい、時には矩形は非常に遠く離れた実際の単語から配置されます。
入手したXMLはthis schemaに従って合成されます。
in the answer you linked toのように、認識された各文字には、charParams
要素のインスタンスが含まれます。要素は、ページの画素の座標を含有する - 同じXMLはまたpage
素子含ま:
<page width="..." height="..." resolution="..." originalCoords="...">
画像の幅と高さが格納されています。各charParams
要素のにはl
とr
があり、対応するページの0..height-1
の各要素にはt
とb
が含まれています。
また、すべての座標がピクセルであることは明白に言及する価値があります。それらは完全に解像度に左右されません。このため、イメージ上の何かを強調表示しようとするときには、ズームを考慮する必要があります。イメージはデバイスソフトウェアのように常に表示されるとは限りませんが、縮小され、ページ座標を拡大アウトイメージ座標を適切に強調表示します。
OCRエンジンが同じDPIを使用していて、画像をポイントや他の測定システムで返さないように、元の画像のDPIをチェックしてドキュメントをチェックしましたか?
iOSで描画している矩形は、ピクセルに基づいているのではなく、他の測定システムでも使用できます。
あなたは、プロセスを進めながらテストをして、どこから問題が発生しているのかを調べるだけで済みます。これはおそらく均一なスケーリングであり、実際の単語からの距離はページの左上からの単語の距離に比例します。
はいシャープトゥースは、実際にはすべて画像の解像度に依存しますが、私が使用していた画像は449 * 651です。なぜなら、特定の単語の座標が異なるからです。しかし、私は320 * 480のイメージを取ったとき、正しく単語に配置されました。 – Rakesh
@sharptooth:Tiffを検索可能なpdfに変換できますか?私はここでこの質問をしましたhttp://stackoverflow.com/questions/9103044/convert-image-to-searchable-pdf非常にありがとう –
@ハリー・ペムの短い答え:はいそれはできる、長い:http://www.ocrsdk .com/help/index.html – Nikolay