2012-02-21 17 views
4

私はOCR 出力として、結果のPDFを検索することができるように、対応する画像の背後にあるOCR 出力を埋め込むために私のPerlアプリケーションでPDF::API2を使用するが含まれるかどうかを指示することができますpdftotextで抽出できます。はどのように特定のフォントがPDFで特定の文字:: API2

現時点では、アプリケーションでOCR出力の に非ASCII文字が表示されると、PDFコアフォントからTTFに切り替わります。しかし、この は、コアフォントにはほとんどの西ヨーロッパの 文字が含まれているので、実際にはハッキーです。 TTF等

、ロシア語、ギリシャ語のためにのみ必要である日本、 どのように私は、特定のフォントが( pdftotext作品でその抽出ので、CMAPテーブルを含む)特定の 文字が含まれているかどうかわかりますか?

+0

[Font :: TTF :: Font](http://search.cpan.org/perldoc?Font::TTF::Font)を調べましたか? – tchrist

答えて