OCRライブラリとJavaを使用してPDFからテキストを抽出しようとした人はいますか?テキスト抽出のための最も信頼性の高いライブラリは何でしたか?私が見たアプローチ(tesseract、GOCR)のほとんどは、いくつかのJNIコードを書く必要があるCライブラリです。PDF OCRを使用したテキスト抽出アプローチ
私はpdfboxをよく知っています。これは現在バージョン0.8.xのApacheインキュベータープロジェクトですが、テキスト抽出は必ずしも正確ではありません。私はもう少し信頼性の高い代替アプローチを探しています。
私はまだAsprise JavaPDFを試していませんが、それを試していますが、可能であればOCRのアプローチについてもっと知りたいと思っていました。
ご協力いただければ幸いです。
構造化PDFを使用していますか?あなたがいるならば、PDFメタデータからテキストを取得するためのJAVAの能力があります。 – northpole
いいえ、すべてのPDFが構造化されているわけではありません。 – Jon