pdfから単語座標を抽出するライブラリ/ツール

pdfから単語座標を抽出するための（できればJava版の）ライブラリやコマンドラインツールを探しています。 input-pdfsには、テキストまたはocr-textの後ろに画像が含まれています。pdfから単語座標を抽出するライブラリ/ツール

私の使用事例：私は強調しヒットし、追加のソフトウェア（例えば、Adobe Readerのなど）せずにこれを提示しないためにこれを使用したいのJava Webアプリケーションで
。代わりに、私は一致するページを画像に変換し、それらをウェブページ内に提示したい。

2010-12-06 Andreas

iTextのを抽出することができますPDFをレンダリングしません。それはテキストと座標（PDF内のものの範囲内）を見つけることができますが、あなたのためにあなたのイメージを描画することはできません。 –

http://pdfbox.apache.org/を使用してハイライトを行い、pdfとして表示する必要があります。またhttp://itextpdf.com/を見てください。

2010-12-06 13:15:39

あなたは（http://www.jpedal.org/pdf_thumbnail_tutorials.php）サムネイルを生成するためにJPedalを使用して、テキスト（http://www.jpedal.org/support_egETAW.php）

2010-12-06 14:05:27

答えて