Apache Tikaを使用して大きなPDFファイルを解析する

Apache Tikaを使用して大きなPDFファイルを解析する際に問題が発生しています。ファイルサイズは5 MBに近いです。ここでApache Tikaを使用して大きなPDFファイルを解析する

はコードです：

package com.ibm.lnk.processor; 

import java.io.File; 
import java.io.FileInputStream; 
import java.io.FileNotFoundException; 
import java.io.IOException; 
import java.io.InputStream; 

import com.ibm.lnk.utility.LNKProcessorUtility; 

public class TestClient { 
public static void main(String[] args) throws IOException { 
    InputStream inputStream=null; 
    try { 
     inputStream=new FileInputStream(new File("C:\\CognitiveAssignment\\ProjectSpecificMaterials\\C3Portal\\TestData\\T1\\Anupam Sarkar_IBM_CV.pdf")); 
     String content=LNKProcessorUtility.getTextContent(inputStream); 
     System.out.println(content); 
    } catch (Exception e) { 
     System.out.println(e); 
    }finally { 
     inputStream.close(); 
    } 
} 
}

そして、私は取得しています例外は次のとおりです。

org.apache.tika.exception.TikaException：すべてのPDFコンテンツ

を抽出することができません。

問題の解決に手助けをすることができますか？

出典

2016-11-30 Anupam

コード - PDF

サンプルからテキストを読み取るためのapache pdfboxを使用してみてください – Gagravarr

どのTIKAバージョンを使用していますか？ –

https://issues.apache.org/jira/browse/TIKA-2098になります。スタックトレースを含めるように質問を編集する必要があります。これは、同じ問題であるかどうかを示します。 –

は、スタックトレースを含む完全な例外は、何でしょうか。

import java.io.File; 
    import java.io.IOException; 
    import org.apache.pdfbox.pdmodel.PDDocument; 
    import org.apache.pdfbox.text.PDFTextStripper; 

    public class PDFTextReader { 

    public static void main(String[] args) throws Exception {  
     File file = new File("<any pdf>"); 
     PDDocument inputDoc= PDDocument.load(file); 
     PDFTextStripper stripper = new PDFTextStripper();   
     System.out.println("Text: " + stripper.getText(inputDoc)); 
     } 
    }

出典

2016-11-30 20:33:48 rasty

Apache Tikaを使用して大きなPDFファイルを解析する

答えて

関連する問題