2010-12-06 25 views
1

pdfから単語座標を抽出するための(できればJava版の)ライブラリやコマンドラインツールを探しています。 input-pdfsには、テキストまたはocr-textの後ろに画像が含まれています。pdfから単語座標を抽出するライブラリ/ツール

私の使用事例:私は強調しヒットし、追加のソフトウェア(例えば、Adobe Readerのなど)せずにこれを提示しないためにこれを使用したいのJava Webアプリケーションで
。代わりに、私は一致するページを画像に変換し、それらをウェブページ内に提示したい。

+0

iTextのを抽出することができますPDFをレンダリングしません。それはテキストと座標(PDF内のものの範囲内)を見つけることができますが、あなたのためにあなたのイメージを描画することはできません。 –

答えて

0

あなたは(http://www.jpedal.org/pdf_thumbnail_tutorials.php)サムネイルを生成するためにJPedalを使用して、テキスト(http://www.jpedal.org/support_egETAW.php)

関連する問題