pdfのテキストのx、yの位置を見つける方法

pdfファイルのテキストコンテンツにX-Yの場所を見つけるためのツールはありますか？pdfのテキストのx、yの位置を見つける方法

2011-01-19 raki

Acrobatで "Preflight ..."を実行し、PDF Analysis -> List page objects, grouped by type of objectを選択してみてください。

結果リスト内にテキストオブジェクトを配置すると、Text Properties -> * Fontセクション内に位置の値（ポイント単位）があることがわかります。

2011-01-19 20:32:41 Orbling

各単語のx、yの位置と高さ、幅を見つけることは可能ですか？ – raki

@raki：位置は、サイズがすぐ下にありますが、これはテキストブロックの場合のみです。これは任意のテキストにすることができます。個別の単語サイズを取得するには、フォントメトリックの計算が必要です。あなたがやっていることの目的は何か、より良いアプローチがあるかもしれません。 – Orbling

Docotic.Pdf Libraryでも可能です。以下のC＃のサンプルを参照してください：

using (PdfDocument doc = new PdfDocument("your_pdf.pdf", "password_if_need")) 
{ 
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData()) 
     Console.WriteLine(textData.Position + " " + textData.Text); 
}

出典

2011-01-20 16:46:28

TET、製品のpdflib家族からのテキスト抽出ツールキットには、それを行うことができます。 TETにはコマンドラインインターフェースがあり、それは私が知っている最も強力なテキスト抽出ツールです。（それもリガチャを処理することができます...）

ジオメトリ
TET、ページ上の位置、グリフの幅、テキストの方向など、テキストの正確な指標を提供します。ページ上の特定の領域は、テキスト抽出に除外することも、テキスト抽出に含めることもできます。ヘッダーとフッターまたはマージンを無視します。

出典

2011-01-23 02:16:55

pdfのテキストのx、yの位置を見つける方法

答えて

関連する問題