0
テキスト解析に使用するために、PDFファイルのセクションを抽出しようとしています。私はこれを達成するためにpdfextractを使ってみました。しかしながら、そのようなPDFのセクションを抽出する
pdf-extract extract --regions --no-lines Bauer2010.pdf
ようなコマンドは、以下の例のように、領域の(x,y)
座標を抽出します。
<region x="226.32" y="750.47" width="165.57" height="6.37"
line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and
Counseling 79 (2010) 315-319</region>
PDFのセクションを抽出することはできますか?
"PDFのセクション"の意味を明確にする必要がありますか? – mkl