2016-07-11 5 views
0

OCRされたPDF(bad-uc.pdf)が、保存された節点(good-uc.pdf)と同じように動作するようにする方法を見つけようとしています。 。PDF最適化 - 埋め込みテキストの前のイメージ読み込み - 提供された例を参照

Acrobat Readerで次の2つのファイルを開くと(いずれのバージョンにも同じ問題が表示されます)、bad-uc.pdfがページイメージの前にテキストを読み込みます(非常にゆっくり)。 -uc.pdfはすべてを一緒に読み込みます(より速く応答性が高いようです)。

良いuc.pdf:https://drive.google.com/file/d/0B-Nxr9ySWJnNX2dZSmVscEZIRmc/view?usp=sharing 悪い-UC-PDF:https://drive.google.com/file/d/0B-Nxr9ySWJnNN2t6X2hFNTBxa0U/view?usp=sharing

私が試してみました:pdftk、pdftops、ghostscriptの、pdf2ps、ps2pdfが及びqpdf、まだ画像が前にロードすることができませんでしたテキストの... PDFの誰かの専門家が、これらの2つのPDFが異なる動作をする理由を説明してもらえますか...

私の推測は、埋め込みテキストの前に画像が読み込まれるようにinfixを再構成します。この種のPDF構造最適化を行うことができるコマンドラインツールです。

大変感謝! ジェフリー

答えて

0

は適切に自分のコンピュータ上のAdobe Readerで表示されるまで実際には、両方のあなたのPDFファイルは、同じくらいの時間かかり...これら二つのPDFファイルの動作が異なる理由について

をいくつかのライトを当てます。しかしあなたの悪いuc.pdfが最初にOCRのテキストを表示してからそれをスキャンでカバーしている間、良いuc.pdfは最初に普通のページを表示してスキャンでカバーしているようです。

この理由は、good-uc.pdfがレンダリングモード3(「不可視」)ではOCRのテキストをペイントし、bad-uc.pdfはレンダリングモード0(「アウトラインを塗りつぶす」)で通常ペイントします。黒色を塗りつぶす。目に見えない絵画は、実際の絵画よりも白く黒く塗りつぶす時間が少なくて済むので、レンダリング時間の間に客観的な違いがあるかもしれませんが、主観主義だと思います。

+0

素晴らしい情報をいただきありがとうございます。レンダリングモードを変更できるLinuxツールがあるかどうか知っていますか?だから私はモード3( "不可視")でレンダリングするためにbad-uc.pdfを使うことができます。 –

+0

私はそのようなツールを知りません、私は単にそのようなツールを実装する方法を考えています。 – mkl

+0

ありがとうございました!それは大きなヒントでした。レンダリングモードのタグを適切な場所に挿入する簡単なスクリプトを書いています。しかし、このスクリプトは、すべてのPDFがABBYYによって生成され、私たちのスクリプトが正しい場所にタグを挿入できるようにPDFのフォーマットの一貫性を制御できるので、アプリケーションにとっては役に立ちます。 S.申し訳ありませんが、私は本当に "有用な"矢を押したかったのですが、私の評判は十分ではありません...再び、偉大なヒントのために多くの感謝!!驚くばかり!! –

関連する問題