pdfファイルからテキストを抽出しようとしています。しかし、いくつかのケースでは、pdfファイルはハード文書のスキャンされたコピーです。Tikaパーサー/ Javaを使用してPDFがスキャンされた文書であるかどうかを検出する方法
特定のpdfが論文のコピーまたは通常のpdfファイルをスキャンしているかどうかを確認する方法はありますか。
pdfファイルからテキストを抽出しようとしています。しかし、いくつかのケースでは、pdfファイルはハード文書のスキャンされたコピーです。Tikaパーサー/ Javaを使用してPDFがスキャンされた文書であるかどうかを検出する方法
特定のpdfが論文のコピーまたは通常のpdfファイルをスキャンしているかどうかを確認する方法はありますか。
Check if a PDF file is a scanned oneの重複がありますか?
かかわらず - ティカの最近のバージョンは、必要に応じてコンテンツの抽出を試みる前Tesseract to OCR画像を使用することができます - あなたはこれを使用して、ドキュメントをあなたは、メタデータを調べることができますティカによって解析された方法を知りたいしている場合:PDFParserはX-Parsed-By
にorg.apache.tika.parser.ocr.TesseractOCRParser
を追加します通常のorg.apache.tika.parser.pdf.PDFParser
に加えてメタデータキーが含まれています。
Tikaを実行する前に独自のOCR処理を実行するかどうかを判断する場合は、PDF(例:pdfimages /その他のコマンドラインツールまたはPDFBoxベースのソリューション)を前処理する必要がありますかテキスト演算子を使用しないフルページの画像(またはページをカバーするより小さな画像)のみが含まれており、OCR処理が必要かどうかを試して分類することも可能です。