どのようにPythonの行から行ごとにテキストを抽出するには？

-1

私はPypdfを使用してテキスト全体を抽出するオプションがありますが、行ごとにテキストを抽出したいと考えています。どんな助けもありがとう。おかげどのようにPythonの行から行ごとにテキストを抽出するには？

2017-11-18 Santosh Vishwakarma

StackOverflowはあなた自身の問題を最初に解決しようとしています（http://meta.stackoverflow.com/questions/261592）、また[宿題に関する質問に回答しません]（https：// softwareengineering.meta.stackexchange.com/questions/6166）。既に試した内容を[最小限で完全で検証可能な例]（http://stackoverflow.com/help/mcve）に表示するために質問を更新してください。詳細については、[良い質問をする方法]（http://stackoverflow.com/help/how-to-ask）を参照し、[サイトの見学]を受けてください（http://stackoverflow.com/tour ）:) – Barmar

私はこれを試していますが、それは全体のテキストを与えています。私は行ごとにテキストを抽出したい。輸入PyPDF2 pdfFileObj =オープン（R'C：デスクトップの\ new.pdf」、 'RB' \ \ユーザー） pdfReader = PyPDF2.PdfFileReader（pdfFileObj） pageObj = pdfReader.getPage（0）テキスト= STR（pageObj .extractText（）） –

質問にあなたのコードを書いて、適切にフォーマットされて読みやすいようにしてください。 – Barmar

Ubuntuを使用している場合は、あなたのような何かを行うことができます：

$ less <file_name>.pdf >op.txt

をし、最初のテキストファイルにPDFファイル内のテキストをリダイレクトして、Pythonのコードを使用して行ずつそれを読む：

を

f=open("op.txt",'r') 

for line in f: 
    line=line.strip('\n') 
    print(line) 
f.close()

出典

2017-11-18 08:25:26

lessは自動的に（[Poppler]（https://poppler.freedesktop.org/）からのpdftotextのような）いくつかのコンバータを自動的に呼び出すことができますが、コンバータ自体ではありません。これは、単にpdfをコピーする可能性が非常に高いです。 –

どのようにPythonの行から行ごとにテキストを抽出するには？

答えて

関連する問題