2012-03-06 13 views
6

Apache PDFBoxを使用してブックマークで定義された階層を持つPDFドキュメントを読み込みます。階層は木の形であり、内容はリーフレベルのみです。代わりに、ページ全体でApache PdfBoxを使用して2つのブックマーク間でテキストを抽出する

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(), 
Stripper.writeText()), 

戻り値のテキスト:以下のコードを使用して2つのリーフレベルのブックマークの間のテキストを抽出

。要するに、私の問題はthis threadで言及されたものと同様です。

2つのブックマークの間にコンテンツを抽出する方法はありますか?

もしそうなら、私のコードの変更はどうでしょうか?

+0

@Shiram -Iは、同じ質問を持っています。あなたがすでにそれを理解している場合は、回答を投稿してください – Kasun

+0

あなたは解決策を見つけましたか?そうでない場合は、ブックマークの例があります(XML形式など)。 – maffo

答えて

0

ブックマークに正しいデータが含まれていないと思われます。

使用しているブックマークのみページどこコンテンツが始まるのではなく、ページ上の場所を指しているように聞こえます。ここで

は、位置データが含まれているブックマークの例です。

<Title Action="GoTo" Style="bold" Page="2 FitH 518"> 
Title Name 
</Title> 
+0

PDFBoxでは、ブックマークの特定のGoToアクションの結果として、ブックマークがPDPageXXYZDestinationに解決されます。したがって、実際にはページの絶対的な位置を指しています。これはPDFビューアで確認され、ブックマークをクリックするとセクションに直接スクロールします。 – nickb

関連する問題