2011-01-19 26 views

答えて

1

Acrobatで "Preflight ..."を実行し、PDF Analysis -> List page objects, grouped by type of objectを選択してみてください。

結果リスト内にテキストオブジェクトを配置すると、Text Properties -> * Fontセクション内に位置の値(ポイント単位)があることがわかります。

+0

各単語のx、yの位置と高さ、幅を見つけることは可能ですか? – raki

+0

@raki:位置は、サイズがすぐ下にありますが、これはテキストブロックの場合のみです。これは任意のテキストにすることができます。個別の単語サイズを取得するには、フォントメトリックの計算が必要です。あなたがやっていることの目的は何か、より良いアプローチがあるかもしれません。 – Orbling

4

Docotic.Pdf Libraryでも可能です。以下のC#のサンプルを参照してください:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf", "password_if_need")) 
{ 
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData()) 
     Console.WriteLine(textData.Position + " " + textData.Text); 
} 
1

TET、製品のpdflib家族からのテキスト抽出ツールキットには、それを行うことができます。 TETにはコマンドラインインターフェースがあり、それは私が知っている最も強力なテキスト抽出ツールです。 (それもリガチャを処理することができます...)

ジオメトリ
TET、ページ上の位置、グリフの幅、テキストの方向など、テキストの正確な指標を提供します。ページ上の特定の領域は、テキスト抽出に除外することも、テキスト抽出に含めることもできます。ヘッダーとフッターまたはマージンを無視します。

関連する問題