PDFのセクションを抽出する

テキスト解析に使用するために、PDFファイルのセクションを抽出しようとしています。私はこれを達成するためにpdfextractを使ってみました。しかしながら、そのようなPDFのセクションを抽出する

pdf-extract extract --regions --no-lines Bauer2010.pdf

ようなコマンドは、以下の例のように、領域の(x,y)座標を抽出します。

<region x="226.32" y="750.47" width="165.57" height="6.37" 
line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and 
Counseling 79 (2010) 315-319</region>

PDFのセクションを抽出することはできますか？

出典

2016-07-29 Adam_G

"PDFのセクション"の意味を明確にする必要がありますか？ – mkl

http://text-analyzer.comをご覧ください。あなたのPDFファイルをアップロードして、自然言語処理に適した形式に変換します。テキストファイルに変換されると、ファイルを処理してセンチメント分析で文章に分解することができます。セクションにタグを付けることができる40種類以上の文章ビューがあります。これらのタグ付けされたセンテンスはエクスポートできます。

出典

2016-08-29 23:08:15 Rob

PDFのセクションを抽出する

答えて

関連する問題