1
手書き文書であり、スキャナを使用してpdfに変換されたpdfがあります。私はTIKA 1.13を使用していますが、このようなファイルをテキスト形式で抽出することはできません。解析後、テキストとして「\ n \ n」しか得られません。ここに私のコードです:TIKAを使用してテキストを抽出できません
Parser parser = new AutoDetectParser();
ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);
ParseContext parseContext = new ParseContext();
parseContext.set(PDFParserConfig.class, pdfConfig);
parseContext.set(Parser.class, parser);
Metadata metadata = new Metadata();
parser.parse(stream, handler, metadata, parseContext);
誰でも助けてください?
'は手書きの文書でpdfに変換されているので、PDFは画像です。 PDFにテキストはありません。 OCRツールを使用して画像をテキストに変換しようとすると、OCRはテキストを抽出できません。 – PeterMmm
TIKAは、基本的にイメージであるそのようなpdfからテキストを抽出するのに役立つことができますか? –
[OCRサポートを有効にする方法については、Apache Tikaのドキュメントに従ってみてください](http://wiki.apache.org/tika/TikaOCR)ですか? – Gagravarr