私はOCR 出力として、結果のPDFを検索することができるように、対応する画像の背後にあるOCR 出力を埋め込むために私のPerlアプリケーションでPDF::API2
を使用するが含まれるかどうかを指示することができますpdftotext
で抽出できます。はどのように特定のフォントがPDFで特定の文字:: API2
現時点では、アプリケーションでOCR出力の に非ASCII文字が表示されると、PDFコアフォントからTTFに切り替わります。しかし、この は、コアフォントにはほとんどの西ヨーロッパの 文字が含まれているので、実際にはハッキーです。 TTF等
、ロシア語、ギリシャ語のためにのみ必要である日本、 どのように私は、特定のフォントが( pdftotext
作品でその抽出ので、CMAPテーブルを含む)特定の 文字が含まれているかどうかわかりますか?
[Font :: TTF :: Font](http://search.cpan.org/perldoc?Font::TTF::Font)を調べましたか? – tchrist