GithubのリポジトリからTikaをインストールし、スキャンしたドキュメントページを含むPDFをOCRしようとしました。TikaはTesseractを検出しましたが、OCRを実行しません
WARNING:たTesseract OCRがインストールされていると自動的に「あなた ない限り、画像ファイルに適用されます、私はたTesseractがインストールされ、利用されていることを事前に確認を得たものの、メタデータのみが(抽出します
java -cp tika-app/target/tika-app-1.17-SNAPSHOT.jar org.apache.tika.cli.TikaCLI /tmp/testing/sample_scanned.pdf
Tesseractはコンテンツの抽出を大幅に遅くする可能性があります(TIKA-2359)。 Tika 1.15(およびそれ以前のバージョン)では、Tesseractが自動的に呼び出されます Tikaの将来のバージョンでは、テスを回すseractOCRParser on TikaConfig
注:通常のPDFファイル(含む)プレーンテキストが正常に解凍されます。問題は、OCRプロセスそのものと思われます。
これはCentosとUbuntuで同じ問題がテストされています。
設定ファイルを変更する必要がありますか、さらにパーサーを指定しますか?何が原因でしょうか?
ありがとうございます。
をまだ解決策を探しています。 OCR部品を使用するには、設定のどこかでOCR部品を指定する必要がありますか?その場合、「Tesseract OCRがインストールされており、自動的に適用される」という警告メッセージが表示されるのはなぜですか? (上記のように)。 – Gugols
これはPDF Parserに関連しているようです。私はちょうど同じ問題に直面しました。埋め込まれた画像で.docxファイルを解析すると、画像からテキストが抽出され、PDFファイル内の同じ画像を使用しても機能しません。 –