PDF文書のページからテキストを抽出したいのですが、私はitextを使用しています。私は彼らのwebsiteからサンプルコードを使用:itext:テキスト抽出の例が機能しない
PdfReader reader = new PdfReader(pathToFile);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
TextExtractionStrategy strategy = parser.processContent(page, new SimpleTextExtractionStrategy());
私NullPointerException
を与えるprocessContent
方法。私は何を間違えたのですか?
この
は thisファイルでバージョン5.5.0を使用しているとき、私が得るスタックトレースです: あなたは、私が問題を再現してみましたが、無駄に、テキスト抽出が働いていたコードsnipletとサンプル文書を考えるjava.lang.NullPointerException
at com.itextpdf.text.pdf.parser.PdfReaderContentParser.processContent(PdfReaderContentParser.java:82)
at com.itextpdf.text.pdf.parser.PdfReaderContentParser.processContent(PdfReaderContentParser.java:105)
at org.languageresources.PDFExtraktor.extractTextFromPage(PDFExtractor.java:100)
詳細情報を共有せずにこの質問への回答を期待しないでください。 WebサイトのコードはiText 5.5.9とテストファイルで動作します。どのバージョンを使用していますか?どのPDFを解析しようとしていますか?この2つの質問に答えがなければ、あなたの質問は答えられません。 –
ご返信ありがとうございます。スタックトレース、ファイル、および使用しているバージョンに関する情報を追加しました。 – user1406177