PDF2DOMを使用してPDFをHTMLに解析すると、

私はpdf2domを使用しており、基本的なドキュメントを試しています。ドキュメントに記載されています - Pdf2DomはApache PDFBox™ライブラリに基づいています。プリントアウトします何PDF2DOMを使用してPDFをHTMLに解析すると、

File file = new File("file.pdf"); 
PDDocument pdf = PDDocument.load(file); 
PDFDomTree parser = new PDFDomTree(); 
Document dom = parser.createDOM(pdf); 
System.out.println(dom);

- [#document：ヌル]私はテキストで同じPDFを削除する場合

は、それが有効なテキストを返し、3種類のPDFの

と同じコードを試してみました。したがって、ファイルはnullではありません。間違ったことやライブラリ自体をやっていますか？

ストリッパーコードが役立ちます。

PDDocument pdf = PDDocument.load(pFile); 
PDFTextStripper stripper = new PDFTextStripper(); 
String text = stripper.getText(pd); 
System.out.println(text);

アドバイスありがとうございます。

出典

2017-05-23 Tinus Jackson

コードに間違いはありません。 DocumentオブジェクトのtoString（）メソッドはそのように返します。

[＃文書：null]は、2つの部分で構成されています。最初の部分はノード名である#documentです。 XMLを解析すると、#documentノードが常にトップレベルノードとして受信されます。 2番目の部分はヌルで、ノードの値です。 nullは、ノードに値がないことを示すために使用されます。

dom.getDocumentElement（）。getTextContent（）を印刷すると、値が表示されます。

出典

2017-05-23 08:28:16 kswaughs

ありがとうございます、noobミスで申し訳ありません –

PDF2DOMを使用してPDFをHTMLに解析すると、

答えて

関連する問題