既存のPDFに外部OCRを埋め込む方法は？

私はOCRアプリケーションを実行する一連のイメージを持っています。このプロセスの結果、文字オフセットを含むXMLファイルが作成されます。次に、Acrobat 9を使用して画像をPDFに変換します。ここで、検索可能なPDFを実現するために、XMLファイル情報をPDFに不可視のテキストレイヤとして追加したいと思います。簡単で自由な方法がありますか？既存のPDFに外部OCRを埋め込む方法は？

いくつかの詳細：

私はAcrobatのOCR機能を使用する必要はありません。
のような要素を含むXMLファイルにOCR処理結果：

<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

更新：それは私が別の方法で望むものをやって可能かもしれないが。画像のセットから生成されたPDFファイルが既に存在し、すでにOCRされたテキストが含まれているとします。各ページの画像だけにアクセス（プログラムで）することは可能でしょうか（たとえば、モノクロに変換する）、PDFファイルに戻して保存できますか？「はい」の場合、OCRされたテキストは失われません。

[私は別の質問に、このアップデートを置くべきか？]

出典

2009-09-28 kepler

あなたは[hocr2pdf]（http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/）便利な –

隠しレイヤーを失うことなくPDFファイルを処理するためのフォローアップの質問については、Ghostscriptがこれを行うことができます。たとえば、次のコマンドは、グレースケールにPDFに変換する必要があります。

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf

出典

2009-10-05 22:28:48

ニース、それは働いた。しかし、出力は私が望むほどクリーンではありません。 ImageMagickがテキストレイヤーを失うことなくPDFを変換できるなら、私は次のようなものでそれぞれのページを処理したいと思います：変換\\（白い閾値50％\\） - モノクローム... 多分、 DaveParilloのように、IMにGSを使う方法。私は後でこれを確認します。 – kepler

-1

あなたがしたいすべてがImagemagickを試し、グレースケールに既存のPDFに変換された場合：

convert foo.pdf -colorspace Gray -compress zip gray.pdf

私はしないでくださいこれはあなたのpdfの他の属性を変更すると思います。

出典

2009-10-01 16:15:14 DaveParillo

これにはないのかもしれませんPDF内に隠されたテキストレイヤーを保持しているようです。（ImageMagick 6.4.5で試した） –

imagemagickはゴーストスクリプトを使って画像変換を行うので、... – DaveParillo

私もそれを試してみて、テキストレイヤーも失ってしまった。 ImageMagick 6.4.5も使用しました。 – kepler

既存のPDFに外部OCRを埋め込む方法は？

答えて

関連する問題