2016-04-03 14 views
0

件名でPDFからテキストを抽出しようとしています。 これを行うには、PDF内のラベルと見出しを識別しようとしています。件名でPDFテキストを抽出する

これまでは、PDFをxmlファイルに変換して、テキストデータをより簡単に取得し、各行のfont \ sizeを使用して行がラベルかどうかを判断しました。 この方法の主な問題は、各PDFが独自のビルドを持つことができ、必ずしも1つのPDFで動作するものが別のもので動作するとは限りません。

誰かがこの問題を解決する方法を知っていて、PDFに依存せずにラベル(科目別テキスト)を抽出できるようになると嬉しく思っています(私が扱っているPDFのほとんどはarticles \ books ) 件名別テキストを抽出するさまざまな方法も歓迎します。各ラインの

  1. チェックフォント:2をやった瞬間イムで

    編集を(タグが示すように、私はPythonでこれをやろうとしています)

  2. チェック各行の文字サイズ

私は次のように結論しています:普通のテキストはそのフォントで最も多くの行を持ちます(他のすべてのテキストよりもこのフォントでx10行以上あります)。また、テキストサイズの中央値を見ると、通常のテキストの。 最初からすべての普通のテキストを取り除くことができます。そして、2番目のものから、より大きいすべてのテキストを取ることができ、すべてのラベルがこのリストに含まれます。

問題は通常、通常のテキストより大きいがラベルではないテキストが存在するため、このリストからラベルのみを抽出することです。 各フォントがテキストに表示される時間を使って、ラベルフォントを特定しようとしましたが、大した成功は得られませんでした。各PDFについて、金額が異なる場合があります。

私はこの問題を解決する方法を探しています。または、誰かがもっと簡単にそれを行うことができるツールを知っている場合は、

答えて

1

私は多くのpdfsを勉強し、すべてのpdfラベルのテキストサイズを書き留めておくことをお勧めします。次に、上位5つの上位フォントを平均し、下位5つのフォントの平均をとることができます。さて、あなたはそれらの間の範囲を作ることができ、それがそのテキストサイズの範囲内にある場合、テキストをチェックすることができます。 この方法は、常に機能するわけではありませんが、pdfsの大半をカバーします。

(詳細はこちらをご覧ください)