2011-12-22 5 views
0

iTextでページタイトルを取得することはできますか?get PDFページタイトル

  • PdfTextExtractorは、ページからすべてのテキストを返しますが、どの行がタイトルであるかわかりません。また、タイトルは、このように私は、フォントサイズを分析しようとすると、最大のフォントが、TextRenderInfoと行(複数可)を取ることができRegionTextRenderFilter
  • を使用することはできません、私はタイトルの座標を知らない
  • つ以上の行が含まれていてもよいですgsへの公開アクセスを提供していません(private final GraphicsState gs
  • 他のアイデア?

答えて

1

PDF内のページにはタイトルがありませんが、太字や大文字のフォントがあり、他のテキストよりも「上位」と思われる領域に表示されます。あなたはすでにこれを知っているように聞こえますが、私はこれで明確にする必要がありました。

ITextExtractionStrategyをサブクラス化してフォント情報を取得する方法を示すmy post hereを参照してください。私のサンプルは、iTextの.NetポートであるiTextSharpをターゲットにしていますが、フィーチャーツーフィーチャーとほとんど同じです。最大の違いは、JavaがgetXXXsetXXXを使用し、.Netが両方ともXXXを使用するという点です。さもなければ、すべてはちょうどうまく移植するべきです

ストーリーの道徳は、あなたが「タイトル」と考えるものを定義するいくつかの規則を書き、それらの規則に基づいて解析する必要があるということです。

関連する問題