2016-07-29 15 views
0

テキスト解析に使用するために、PDFファイルのセクションを抽出しようとしています。私はこれを達成するためにpdfextractを使ってみました。しかしながら、そのようなPDFのセクションを抽出する

pdf-extract extract --regions --no-lines Bauer2010.pdf 

ようなコマンドは、以下の例のように、領域の(x,y)座標を抽出します。

<region x="226.32" y="750.47" width="165.57" height="6.37" 
line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and 
Counseling 79 (2010) 315-319</region> 

PDFのセクションを抽出することはできますか?

+2

"PDFのセクション"の意味を明確にする必要がありますか? – mkl

答えて

0

http://text-analyzer.comをご覧ください。あなたのPDFファイルをアップロードして、自然言語処理に適した形式に変換します。テキストファイルに変換されると、ファイルを処理してセンチメント分析で文章に分解することができます。セクションにタグを付けることができる40種類以上の文章ビューがあります。これらのタグ付けされたセンテンスはエクスポートできます。

関連する問題