このサイトhttp://www.searchable-pdf.com/content.php?lang=en&c=61によれば、テキストレイヤーを追加するとPDFを検索することができます。PDFとテキストレイヤー
私はPDFの技術仕様を探していました。私はテキストを2つの方法でPDFに格納することができると思います: a)イメージレイヤーの上のテキストレイヤーとして(上のWebページで説明したように) b)Word文書(テキスト付き)からPDFを作成すると、 Wordがテキストレイヤー内のすべてのテキストを保存するとは思わないでください。私はイメージレイヤーにそれを保存すると思いますか?右?
PDF 1.4以降、XMPが追加されました(http://en.wikipedia.org/wiki/Extensible_Metadata_Platform)。しかし、XMPとは何ですか?これは私が上で議論した "テキストレイヤー"ですか?
スキャナが画像上でOCRを実行している場合、テキストが「テキストレイヤー」に保存されていますか?または "XMP"フィールド?これは、PDFがバージョン1.4の場合のみ可能ですか?
PDFに既にテキストデータがあるかどうかを検出するにはどうすればよいですか?例:PDF AはOCRでスキャンされ、PDF Bはスキャンされていません。 PDF Bを別のOCRエンジンに送信する必要があることをどのように知ることができますか?
通常、OCRの後、テキストは「見えない」テキストレンダリングモードでPDFの*標準*コンテンツに追加されます(余分な*レイヤ*は不可視になりました。 ; PDF仕様の* Optional Content *を探してください)。しかし、実際のPDF(「スキャンされたPDF」と「通常のPDF」の両方)では、テキストを選択してコピーできることがよくありますが、貼り付け後にはgobbledigook。そのようなファイルで 'pdftotext'を使うと...もしそうなら、使用するフォントの* encoding *に問題があります。 –