私はOCRアプリケーションを実行する一連のイメージを持っています。このプロセスの結果、文字オフセットを含むXMLファイルが作成されます。次に、Acrobat 9を使用して画像をPDFに変換します。ここで、検索可能なPDFを実現するために、XMLファイル情報をPDFに不可視のテキストレイヤとして追加したいと思います。簡単で自由な方法がありますか?既存のPDFに外部OCRを埋め込む方法は?
いくつかの詳細:
私はAcrobatのOCR機能を使用する必要はありません。
のような要素を含むXMLファイルにOCR処理結果:
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>
更新:それは私が別の方法で望むものをやって可能かもしれないが。画像のセットから生成されたPDFファイルが既に存在し、すでにOCRされたテキストが含まれているとします。各ページの画像だけにアクセス(プログラムで)することは可能でしょうか(たとえば、モノクロに変換する)、PDFファイルに戻して保存できますか? 「はい」の場合、OCRされたテキストは失われません。
[私は別の質問に、このアップデートを置くべきか?]
あなたは[hocr2pdf](http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/)便利な –