Apache PdfBoxを使用して2つのブックマーク間でテキストを抽出する

Apache PDFBoxを使用してブックマークで定義された階層を持つPDFドキュメントを読み込みます。階層は木の形であり、内容はリーフレベルのみです。代わりに、ページ全体でApache PdfBoxを使用して2つのブックマーク間でテキストを抽出する

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(), 
Stripper.writeText()),

戻り値のテキスト：以下のコードを使用して2つのリーフレベルのブックマークの間のテキストを抽出

。要するに、私の問題はthis threadで言及されたものと同様です。

2つのブックマークの間にコンテンツを抽出する方法はありますか？

もしそうなら、私のコードの変更はどうでしょうか？

出典

2012-03-06 Shriram Kalpathy Mohan

@Shiram -Iは、同じ質問を持っています。あなたがすでにそれを理解している場合は、回答を投稿してください – Kasun

あなたは解決策を見つけましたか？そうでない場合は、ブックマークの例があります（XML形式など）。 – maffo

ブックマークに正しいデータが含まれていないと思われます。

使用しているブックマークのみページどこコンテンツが始まるのではなく、ページ上の場所を指しているように聞こえます。ここで

は、位置データが含まれているブックマークの例です。

<Title Action="GoTo" Style="bold" Page="2 FitH 518"> 
Title Name 
</Title>

出典

2013-02-04 07:30:57 maffo

PDFBoxでは、ブックマークの特定のGoToアクションの結果として、ブックマークがPDPageXXYZDestinationに解決されます。したがって、実際にはページの絶対的な位置を指しています。これはPDFビューアで確認され、ブックマークをクリックするとセクションに直接スクロールします。 – nickb

Apache PdfBoxを使用して2つのブックマーク間でテキストを抽出する

答えて

関連する問題