Pythonを使用してPDF内の特定の領域からテキストを抽出する方法は？私は、Pythonを使用してPDFからテキストを抽出しようとしている、と私は正常にこのようPyPDF2を使用して行っている

import PyPDF2 
pdfFileObj = open('path', 'rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 
pageObj = pdfReader.getPage(0) 
pageObj.extractText()

これはページからすべてのテキストを抽出し、私はテキストのみを抽出したいですページの左上部分の3'x4 'の矩形領域から選択します。

にこれはPyPDF2によって、または任意の他のPythonライブラリによって行うことができますか？

これはかなり複雑なトピックですが、可能です。まず、pdf形式のディスクリプションに精通している必要があります。

たとえば、hereです。

テキストボックスの場所と内容を特定し、文字列データを抽出することができます。

ThisトピックにはPyPDF2の以前のバージョンpyPdfの例がありますが、構文は似ています。間接オブジェクトを反復処理する方法の例があります。

あなたが使用した関数pageObj.extractText()のソースも、開始するのに適しています。

Pythonに限定されていない場合：How to extract text from a PDF?

2017-08-21 07:26:42 Joe

答えて