2017-11-18 4 views
-1

私はPypdfを使用してテキスト全体を抽出するオプションがありますが、行ごとにテキストを抽出したいと考えています。どんな助けもありがとう。おかげどのようにPythonの行から行ごとにテキストを抽出するには?

+0

StackOverflowはあなた自身の問題を最初に解決しようとしています(http://meta.stackoverflow.com/questions/261592)、また[宿題に関する質問に回答しません](https:// softwareengineering.meta.stackexchange.com/questions/6166)。既に試した内容を[最小限で完全で検証可能な例](http://stackoverflow.com/help/mcve)に表示するために質問を更新してください。詳細については、[良い質問をする方法](http://stackoverflow.com/help/how-to-ask)を参照し、[サイトの見学]を受けてください(http://stackoverflow.com/tour ):) – Barmar

+0

私はこれを試していますが、それは全体のテキストを与えています。私は行ごとにテキストを抽出したい。 輸入PyPDF2 pdfFileObj =オープン(R'C:デスクトップの\ new.pdf」、 'RB' \ \ユーザー) pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getPage(0) テキスト= STR(pageObj .extractText()) –

+0

質問にあなたのコードを書いて、適切にフォーマットされて読みやすいようにしてください。 – Barmar

答えて

0

Ubuntuを使用している場合は、あなたのような何かを行うことができます:

$ less <file_name>.pdf >op.txt 

をし、最初のテキストファイルにPDFファイル内のテキストをリダイレクトして、Pythonのコードを使用して行ずつそれを読む:

f=open("op.txt",'r') 

for line in f: 
    line=line.strip('\n') 
    print(line) 
f.close() 
+0

lessは自動的に([Poppler](https://poppler.freedesktop.org/)からのpdftotextのような)いくつかのコンバータを自動的に呼び出すことができますが、コンバータ自体ではありません。これは、単にpdfをコピーする可能性が非常に高いです。 –

関連する問題