OCRされたPDF(bad-uc.pdf)が、保存された節点(good-uc.pdf)と同じように動作するようにする方法を見つけようとしています。 。PDF最適化 - 埋め込みテキストの前のイメージ読み込み - 提供された例を参照
Acrobat Readerで次の2つのファイルを開くと(いずれのバージョンにも同じ問題が表示されます)、bad-uc.pdfがページイメージの前にテキストを読み込みます(非常にゆっくり)。 -uc.pdfはすべてを一緒に読み込みます(より速く応答性が高いようです)。
良いuc.pdf:https://drive.google.com/file/d/0B-Nxr9ySWJnNX2dZSmVscEZIRmc/view?usp=sharing 悪い-UC-PDF:https://drive.google.com/file/d/0B-Nxr9ySWJnNN2t6X2hFNTBxa0U/view?usp=sharing
私が試してみました:pdftk、pdftops、ghostscriptの、pdf2ps、ps2pdfが及びqpdf、まだ画像が前にロードすることができませんでしたテキストの... PDFの誰かの専門家が、これらの2つのPDFが異なる動作をする理由を説明してもらえますか...
私の推測は、埋め込みテキストの前に画像が読み込まれるようにinfixを再構成します。この種のPDF構造最適化を行うことができるコマンドラインツールです。
大変感謝! ジェフリー
素晴らしい情報をいただきありがとうございます。レンダリングモードを変更できるLinuxツールがあるかどうか知っていますか?だから私はモード3( "不可視")でレンダリングするためにbad-uc.pdfを使うことができます。 –
私はそのようなツールを知りません、私は単にそのようなツールを実装する方法を考えています。 – mkl
ありがとうございました!それは大きなヒントでした。レンダリングモードのタグを適切な場所に挿入する簡単なスクリプトを書いています。しかし、このスクリプトは、すべてのPDFがABBYYによって生成され、私たちのスクリプトが正しい場所にタグを挿入できるようにPDFのフォーマットの一貫性を制御できるので、アプリケーションにとっては役に立ちます。 S.申し訳ありませんが、私は本当に "有用な"矢を押したかったのですが、私の評判は十分ではありません...再び、偉大なヒントのために多くの感謝!!驚くばかり!! –