2016-10-20 5 views
-1

私はpdftotextを使ってpdfから情報を抽出しています。現在、-rawオプションを使用しています。私は作業しているPDFにいくつかの問題があります。テキストを上から下に選択すると、次のように選択されます。PDFを上から下に選択できません

PDFコンテンツ:

Bそれはその後、その後、CとBを選択

Cだから私はそれが同じように表示されるテキストを抽出するとき。 PDFを再フォーマットして上から下にコンテンツを選択する方法はありますか?

注:「生の」オプションを省略するとレイアウトは保持されますが、ドキュメントにテーブルが含まれているとバグが多いように見えます。

答えて

1

はい、コンテンツが上から下に返されるようにPDFを再フォーマットすることができます。これは、私が気づいているAdobe Acrobatやその他のビューアを使用して簡単に行うことができるものではなく、ここでその理由があります。 pdftotextのドキュメントから

は、-rawオプションは

コンテンツストリームのためにテキストを保つように定義されます。これは、しばしば列の書式設定を「元に戻す」ハックです。rawモードの使用はもはや推奨されません。

「コンテンツストリームの順序」は、説明の重要な部分です。

PDFでは、ページがレンダリングされるときに人間がコンテンツを読む順序でコンテンツストリーム(ページを表示するために解釈される命令)にページのコンテンツを書き込む必要はありません。 PDFの内部は、注文に関わらず、さまざまなプラットフォーム上で同じ文書の視覚化を再現するように設計されています。 PDFに関係するすべてが視覚化であるため、PDFを書き込むアプリケーションやライブラリは意味のある方法でコンテンツストリームを注文しない傾向があります。

人間が読んでもいいように、コンテンツストリーム内の命令を並べ替えることができます。コンテンツストリームを操作するためにPDFを理解するライブラリを使用するのは簡単な作業ではありません。これを行うための一つの方法です。もう1つの方法は、PDFからテキストを抽出するためのより高度なツールを探すことです(コンテンツストリームのどこに表示されるかではなく、ページ上のコンテンツの配置を調べるツールが多数あります)。

私は、コンテンツがページに自動的に表示される場所に基づいて、PDF内のコンテンツストリームの順序を変更するものは認識していません。

+0

コンテンツの配置に基づいてPDFテキストを抽出するツールはありますか? – eatorres

+0

これを行うためのツールがいくつかありますが、そこには無料のものがいくつかあるかもしれません。それはあなたが探しているツールのタイプと、それがあなたが取り組んでいるより大きいプロジェクトにどのように適合するかによって異なります。私は、開発者向けのPDFライブラリをアプリケーションに統合し、ライブラリに配置に基づいてテキストを抽出する機能を提供する会社で働いています。しかし、Abbyy(https://www.abbyy.com/en-us/)は、このトピックに焦点を当てた企業からのより高度なものがいくつかあります。 –

関連する問題