2017-01-31 10 views
0

OCR処理されたPDFファイルがいくつかあります(私ではありません)。スキャンされたイメージとOCRテキストの両方が含まれています。彼らはいくつかの視聴者(iPhone/iPad)ではうまく動作するようですが、他の人(MacOSのPreview.app)では読みにくいです。OCRのテキストが表示されたPDF、既存のPDFから隠す方法

グーグルグーグルでは、画像&が正しくレイヤーされていないか、使用されているフォントに問題がありますか?私は正しい語彙を使用しているかどうかもわかりません。ほとんどのヒットは無益です。

ghostscriptなどを使用してこれらのファイルをバッチ修正することはできますか? 「悪い」のレンダリングの

例: example

答えて

3

その解決策を提案することが困難になりalseれ、PDFファイルを見ることなくPDFファイル(またはビューア)と間違って何を言うことは不可能!

Ghostscriptでpdfwriteデバイスにファイルを実行し、-dFILTERTEXTスイッチを使用してテキストを処理できます。したがって、結果として得られる文書には問題のテキストは含まれませんが、依然として画像が含まれます。

もちろん、これは検索やハイライトができません。

-dFILTERIMAGEを使用すると、元のイメージを削除してテキストを残すことができます。しかし、テキストではない元の文書のものは、今や失われてしまうでしょう。

通常、「ベストプラクティス」は、レンダリングモード3で描画されたテキストをマークしないようにすることです。これにより、OCRのテキストが干渉しないで元の画像を見ることができます。あなたが使用しているビューアが、テキストレンダリングモードを尊重していない可能性があります。これは、ビューアの(かなり重大な)バグです。 MacOSの最新バージョンでは、Quartz PDFレンダリングエンジンに厄介なバグがあるようです。

これを行うもう1つの方法は、テキストを最初に描画し、元のイメージをその上に置くことですが、それは間違っていません。テキストレンダリングの可能性が高いと思われます。

EDIT PDFファイルは最初にテキストを描画し、テキストの上にイメージを描画します。基礎となるテキストは表示されません。彼のコメントではmklはかなり正しいです。

これを修正する正しい方法は、誤ってレンダリングしているコンシューマを修正することです。上で述べたように、Quartzの最新バージョンにはかなり深刻なバグがあるようですが、これをAppleにバグとして取り上げることもできます。

唯一の解決策は、これを実行してテキストを削除することです。 Ghostscriptはこれを行うことができますが、意味があります。まず文書からテキストを検索/コピー/貼り付けることはできなくなります。第2に、解凍されたJPXイメージがJPEGとして再圧縮されないようにするために、複雑なコマンドラインを実行する必要があります。これにより、品質が低下する可能性があります。最終的に結果として生じるファイルサイズは大きくなります。

+0

返信いただきありがとうございます。そこからスクリーンショットを取ったPDFは入手可能です[ここ](http://dis-danmark.dk/bibliotek/905046.pdf)。どのレンダリングモードがテキストに使用されているかをPDFで調べるためのツールがありますか? – meide

+0

ABBYY FineReader 12(ファイルの作成に使用された)は、イメージ/テキストレイヤー方式を使用しているようです。彼らはプログラムで再配置できますか? – meide

+0

私は、PDFを変更することが本当に助けになるとは思っていません - 特定のPDFの書き込みを示すPDFビューアは真剣に壊れていて、真剣に壊れたソフトウェアでこのような問題を回避しようとすると、 – mkl

関連する問題