0
Apache Tikaを使用して大きなPDFファイルを解析する際に問題が発生しています。 ファイルサイズは5 MBに近いです。ここでApache Tikaを使用して大きなPDFファイルを解析する
はコードです:
package com.ibm.lnk.processor;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import com.ibm.lnk.utility.LNKProcessorUtility;
public class TestClient {
public static void main(String[] args) throws IOException {
InputStream inputStream=null;
try {
inputStream=new FileInputStream(new File("C:\\CognitiveAssignment\\ProjectSpecificMaterials\\C3Portal\\TestData\\T1\\Anupam Sarkar_IBM_CV.pdf"));
String content=LNKProcessorUtility.getTextContent(inputStream);
System.out.println(content);
} catch (Exception e) {
System.out.println(e);
}finally {
inputStream.close();
}
}
}
そして、私は取得しています例外は次のとおりです。
を抽出することができません。org.apache.tika.exception.TikaException:すべてのPDFコンテンツ
問題の解決に手助けをすることができますか?
コード - PDF
サンプルからテキストを読み取るためのapache pdfboxを使用してみてください – Gagravarr
どのTIKAバージョンを使用していますか? –
https://issues.apache.org/jira/browse/TIKA-2098になります。スタックトレースを含めるように質問を編集する必要があります。これは、同じ問題であるかどうかを示します。 –