Pythonで「見られた」PDFからテキストがどのように抽出されますか？

-4

PDFからテキストを読み込むと、Python3でどのように認識されますか？私はPython3がそれをどのように見ているのかを知りたいので、どの情報を探して保存するかを教えてください。Pythonで「見られた」PDFからテキストがどのように抽出されますか？

私の究極の目標は、読み込まれた情報から特定のテキストを見つけ出し、条件に一致する情報の行のみを含む文書。擬似コードの例：

- 列4に「x」がある場合は、その行を別のファイルにコピーします（「x」が含まれていない場合はスキップします） PDFの最後まで続きます。

-Read NEW doc、列1に「n」がある場合は行を保持し、そうでない場合は削除します。

私はそれが最も理想的な方法ではないことを知っており、後でその部分を修正する予定です。

出典

2017-09-15 platypus87

自分で調査しましたか？ http://www.unixuser.org/~euske/python/pdfminer/index.html –

使用しているPDFツールのソースコードがある場合は、そのソースコードを読むことから始めてください。 [Stack Overflowユーザーにどの程度の研究努力が期待されていますか？]（http://meta.stackoverflow.com/q/261592/7432） –

-1

一般的な意味では、これは非常に難しいです。 PDF形式では、ページ上の任意の順序で、個人の単語や文字を「ペイント」できます。

つまり、「段落」として表示される内容は、PDFファイル内の連続した意味で存在する場合と存在しない場合があります。 PDFリーダー（Acrobatなど）は、各単語/文字がすべて1段落に表示されるように配置しただけです。

ページをレンダリングしてから、ピクセル単位でピクセルを調べ、テキストの並び方を確認します。（これは単純なカット&のPDF貼り付けを試してみるとうまくいかない場合があります）

良い知らせは、通常、意図的に発注しないでくださいジャングルのテキスト）。これは現在、pdfminerのようなツールです。テーブル用の同様の

：あなたはPDFオフセット同じ水平持つ一連のセルとしてそれらを見て、しかし、テーブルとしてそれらを参照してください（必ずしもファイル内の同じ順序インチ）

異なる垂直オフセット他の人が示唆しているように、pdfminerを見て、PDF仕様を読んで、のPDFファイルがどのようにフォーマットされているか調べてください。

出典

2017-09-15 19:14:47 pbuck

この質問を書く前に少し調べてみましたが、他の質問を見てみました同じように。何かが何であるかをあなたが確信していないときには、何かを探すのは難しいです。人々は非常に迅速に判断し、ここで仮定しています。説明してくれてありがとうpbuck。実際のコードに近いところに私を移動させることは確かではありませんが、私は何かを学びました – platypus87

Pythonで「見られた」PDFからテキストがどのように抽出されますか？

答えて

関連する問題