pdfから単語座標を抽出するための(できればJava版の)ライブラリやコマンドラインツールを探しています。 input-pdfsには、テキストまたはocr-textの後ろに画像が含まれています。pdfから単語座標を抽出するライブラリ/ツール
私の使用事例:私は強調しヒットし、追加のソフトウェア(例えば、Adobe Readerのなど)せずにこれを提示しないためにこれを使用したいのJava Webアプリケーションで
。代わりに、私は一致するページを画像に変換し、それらをウェブページ内に提示したい。
iTextのを抽出することができますPDFをレンダリングしません。それはテキストと座標(PDF内のものの範囲内)を見つけることができますが、あなたのためにあなたのイメージを描画することはできません。 –