2017-08-21 10 views
1

Pythonを使用してPDF内の特定の領域からテキストを抽出する方法は?私は、Pythonを使用してPDFからテキストを抽出しようとしている、と私は正常にこのようPyPDF2を使用して行っている

import PyPDF2 
pdfFileObj = open('path', 'rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 
pageObj = pdfReader.getPage(0) 
pageObj.extractText() 

これはページからすべてのテキストを抽出し、私はテキストのみを抽出したいですページの左上部分の3'x4 'の矩形領域から選択します。

私は基本的に何かやりたい:How-to extract text from a pdf doc within a specific rectangular region?をしかし、Pythonの

にこれはPyPDF2によって、または任意の他のPythonライブラリによって行うことができますか?

答えて

0

これはかなり複雑なトピックですが、可能です。 まず、pdf形式のディスクリプションに精通している必要があります。

たとえば、hereです。

テキストボックスの場所と内容を特定し、文字列データを抽出することができます。

ThisトピックにはPyPDF2の以前のバージョンpyPdfの例がありますが、構文は似ています。間接オブジェクトを反復処理する方法の例があります。

あなたが使用した関数pageObj.extractText()のソースも、開始するのに適しています。

Pythonに限定されていない場合:How to extract text from a PDF?

関連する問題