私はpdf2domを使用しており、基本的なドキュメントを試しています。ドキュメントに記載されています - Pdf2DomはApache PDFBox™ライブラリに基づいています。プリントアウトします何PDF2DOMを使用してPDFをHTMLに解析すると、
File file = new File("file.pdf");
PDDocument pdf = PDDocument.load(file);
PDFDomTree parser = new PDFDomTree();
Document dom = parser.createDOM(pdf);
System.out.println(dom);
- [#document:ヌル]私はテキストで同じPDFを削除する場合
は、それが有効なテキストを返し、3種類のPDFの
と同じコードを試してみました。したがって、ファイルはnullではありません。間違ったことやライブラリ自体をやっていますか?
ストリッパーコードが役立ちます。
PDDocument pdf = PDDocument.load(pFile);
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(pd);
System.out.println(text);
アドバイスありがとうございます。
ありがとうございます、noobミスで申し訳ありません –