2017-01-09 10 views
0

PDFBoxでPDFからストリームダンプを抽出したい。 これはPDFBoxで可能ですか?PDFBoxでPDF-Bodyからストリームダンプを抽出する

は、私はこのように、PDFのコンテンツの元HEX-コードを取得したい:シングルユース

BT /F19 8.9664 Tf 96.197 606.119 Td [(Kommunikation)]TJ 
ET 
q 
1 0 0 1 85.238 594.35 cm 
[]0 d 0 J 0.398 w 0 0 m 0 7.352 l S 
Q 
BT 
/F19 8.9664 Tf 133.856 595.758 Td [(Erster)-600(Testuebertrag)-600(auf)-600(die)-600(Neuentwicklung)-600(fuer)-600(die)-600(PSA)-600(Direktbank)-600(ma)]TJ 
ET 
q 
1 0 0 1 85.238 583.989 cm 
[]0 d 0 J 0.398 w 0 0 m 0 7.352 l S 
Q 
BT 
/F19 8.9664 Tf 133.856 585.397 Td [(l)-600(mit)-600(sehr)-600(langen)-600(Verwendungszweck)-600(gleich)-600(zum)-600(testen)-600(wann)-600(dieser)-600(cuted)]TJ 
ET 

THX

答えて

1

PDFDebuggerを実行し、 "内容" を探してください。複数回使用のために

、最初のページにこのコードを使用:

try (PDDocument doc = PDDocument.load(new File("XXX.pdf")); 
     InputStream contents = doc.getPage(0).getContents()) 
{ 
    IOUtils.copy(contents, System.out); 
} 

注意これが唯一のページのコンテンツストリームをダンプすること。 xobjectフォーム、パターン、ソフトマスク、アノテーションアピアランスストリームには他のコンテンツストリームが存在する可能性があります。 PDFはかなり複雑です。

+0

thxたくさん...このコードをスニップしています... – derRichter

関連する問題