2009-09-28 15 views
6

私はOCRアプリケーションを実行する一連のイメージを持っています。このプロセスの結果、文字オフセットを含むXMLファイルが作成されます。次に、Acrobat 9を使用して画像をPDFに変換します。ここで、検索可能なPDFを実現するために、XMLファイル情報をPDFに不可視のテキストレイヤとして追加したいと思います。簡単で自由な方法がありますか?既存のPDFに外部OCRを埋め込む方法は?

いくつかの詳細:

  • 私はAcrobatのOCR機能を使用する必要はありません。

  • のような要素を含むXMLファイルにOCR処理結果:

    <line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

更新:それは私が別の方法で望むものをやって可能かもしれないが。画像のセットから生成されたPDFファイルが既に存在し、すでにOCRされたテキストが含まれているとします。各ページの画像だけにアクセス(プログラムで)することは可能でしょうか(たとえば、モノクロに変換する)、PDFファイルに戻して保存できますか? 「はい」の場合、OCRされたテキストは失われません。

[私は別の質問に、このアップデートを置くべきか?]

+0

あなたは[hocr2pdf](http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/)便利な –

答えて

1

隠しレイヤーを失うことなくPDFファイルを処理するためのフォローアップの質問については、Ghostscriptがこれを行うことができます。たとえば、次のコマンドは、グレースケールにPDFに変換する必要があります。

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf 
+0

ニース、それは働いた。しかし、出力は私が望むほどクリーンではありません。 ImageMagickがテキストレイヤーを失うことなくPDFを変換できるなら、私は次のようなものでそれぞれのページを処理したいと思います: 変換\\(白い閾値50%\\) - モノクローム... 多分、 DaveParilloのように、IMにGSを使う方法。私は後でこれを確認します。 – kepler

-1

あなたがしたいすべてがImagemagickを試し、グレースケールに既存のPDFに変換された場合:

convert foo.pdf -colorspace Gray -compress zip gray.pdf 

私はしないでくださいこれはあなたのpdfの他の属性を変更すると思います。

+0

これにはないのかもしれませんPDF内に隠されたテキストレイヤーを保持しているようです。 (ImageMagick 6.4.5で試した) –

+0

imagemagickはゴーストスクリプトを使って画像変換を行うので、... – DaveParillo

+0

私もそれを試してみて、テキストレイヤーも失ってしまった。 ImageMagick 6.4.5も使用しました。 – kepler

関連する問題