2012-07-10 7 views
7

このサイトhttp://www.searchable-pdf.com/content.php?lang=en&c=61によれば、テキストレイヤーを追加するとPDFを検索することができます。PDFとテキストレイヤー

私はPDFの技術仕様を探していました。私はテキストを2つの方法でPDFに格納することができると思います: a)イメージレイヤーの上のテキストレイヤーとして(上のWebページで説明したように) b)Word文書(テキスト付き)からPDFを作成すると、 Wordがテキストレイヤー内のすべてのテキストを保存するとは思わないでください。私はイメージレイヤーにそれを保存すると思いますか?右?

PDF 1.4以降、XMPが追加されました(http://en.wikipedia.org/wiki/Extensible_Metadata_Platform)。しかし、XMPとは何ですか?これは私が上で議論した "テキストレイヤー"ですか?

スキャナが画像上でOCRを実行している場合、テキストが「テキストレイヤー」に保存されていますか?または "XMP"フィールド?これは、PDFがバージョン1.4の場合のみ可能ですか?

PDFに既にテキストデータがあるかどうかを検出するにはどうすればよいですか?例:PDF AはOCRでスキャンされ、PDF Bはスキャンされていません。 PDF Bを別のOCRエンジンに送信する必要があることをどのように知ることができますか?

+0

通常、OCRの後、テキストは「見えない」テキストレンダリングモードでPDFの*標準*コンテンツに追加されます(余分な*レイヤ*は不可視になりました。 ; PDF仕様の* Optional Content *を探してください)。しかし、実際のP​​DF(「スキャンされたPDF」と「通常のPDF」の両方)では、テキストを選択してコピーできることがよくありますが、貼り付け後にはgobbledigook。そのようなファイルで 'pdftotext'を使うと...もしそうなら、使用するフォントの* encoding *に問題があります。 –

答えて

7

PDF仕様書には「テキストレイヤー」の記載はありません。通常、テキストを「保存」するには、演算子を示すテキストを使用する方法が1つあります。これらの演算子は、特定の色、フォント、フォントサイズ、およびテキストレンダリングモードを使用して、特定の場所にテキストを描画します。いくつかのテキストレンダリングモードがあります。あなたの質問に答える目的で、テキストを表示することも、表示しないこともできます。

OCRを実行するスキャナで、ラスタイメージとテキストの両方をPDFドキュメントにレンダリングします。テキストは、不可視テキストレンダリングモードを使用してレンダリングされます。その結果、マウスを使用してテキストを選択することができます(強調表示された領域はイメージの上の予想される場所に表示されます)。テキストを検索することができます。再度検索結果が正しい場所に表示されます。

Word文書からPDFを生成すると、変換に使用するソフトウェアによって異なります。私の知る限り、これらのコンバータは画像を生成しませんが、可視のテキストを生成します。

XMPは、ビジュアルデータではなくメタデータです。

最後に、PDFにテキストデータがあるかどうかを検出するための質問については、ここにはsimilar questionがあります。

+0

フランクに感謝します。明確な答え! –

+0

その他のご質問: * PDFの各バージョン(http://en.wikipedia.org/wiki/Portable_Document_Format#Adobe.27s_versions)にはテキストが含まれていますか?テキストを格納する方法を示す形式の指定はありますか?
* OCRされたPDFがありますが、別のOCRエンジンを使用してもう一度「再OCR」すると、以前のOCRテキストはどうなりますか? –

+0

@JochenHebbrecht:私の答えを見てください。また、仕様へのリンクも提供しています。 **もちろん**テキストを保存する方法については、仕様に厳密な規則があります(ただし、Wikipediaではそれらを見つけることはできません)。 –

3

私はFrank Remの答えをアップアップしました。なぜなら、それは完全であるからです。

は私がしかし、いくつかの詳細を追加してみましょう:

  1. テキストの「不可視」はTrから来て、PDFでテキストのレンダリングモード3演算子:「を埋めることも、ストロークテキストどちらも」(PDF-1.7 spec, Chapter 9.3.6)
  2. "PDF has an extra blank in all words after running through Ghostscript"の質問をご覧ください。技術的な詳細についてもう少し詳しく知りたい場合は、の見出しの記事をご覧ください。「見えないテキストを表示するにはどうすればいいですか」 )。
+0

ありがとう、2)ポイントのリンクは私にとって非常に明確です!あなたはプロです! :-) –