2017-05-23 23 views
1

私はpdf2domを使用しており、基本的なドキュメントを試しています。ドキュメントに記載されています - Pdf2DomはApache PDFBox™ライブラリに基づいています。プリントアウトします何PDF2DOMを使用してPDFをHTMLに解析すると、

File file = new File("file.pdf"); 
PDDocument pdf = PDDocument.load(file); 
PDFDomTree parser = new PDFDomTree(); 
Document dom = parser.createDOM(pdf); 
System.out.println(dom); 

- [#document:ヌル]私はテキストで同じPDFを削除する場合

は、それが有効なテキストを返し、3種類のPDFの

と同じコードを試してみました。したがって、ファイルはnullではありません。間違ったことやライブラリ自体をやっていますか?

ストリッパーコードが役立ちます。

PDDocument pdf = PDDocument.load(pFile); 
PDFTextStripper stripper = new PDFTextStripper(); 
String text = stripper.getText(pd); 
System.out.println(text); 

アドバイスありがとうございます。

答えて

1

コードに間違いはありません。 DocumentオブジェクトのtoString()メソッドはそのように返します。

[#文書:null]は、2つの部分で構成されています。 最初の部分はノード名である#documentです。 XMLを解析すると、#documentノードが常にトップレベルノードとして受信されます。 2番目の部分はヌルで、ノードの値です。 nullは、ノードに値がないことを示すために使用されます。

dom.getDocumentElement()。getTextContent()を印刷すると、値が表示されます。

+0

ありがとうございます、noobミスで申し訳ありません –

関連する問題