私はPypdf
を使用してテキスト全体を抽出するオプションがありますが、行ごとにテキストを抽出したいと考えています。どんな助けもありがとう。おかげどのようにPythonの行から行ごとにテキストを抽出するには?
-1
A
答えて
0
Ubuntuを使用している場合は、あなたのような何かを行うことができます:
$ less <file_name>.pdf >op.txt
をし、最初のテキストファイルにPDFファイル内のテキストをリダイレクトして、Pythonのコードを使用して行ずつそれを読む:
をf=open("op.txt",'r')
for line in f:
line=line.strip('\n')
print(line)
f.close()
+0
lessは自動的に([Poppler](https://poppler.freedesktop.org/)からのpdftotextのような)いくつかのコンバータを自動的に呼び出すことができますが、コンバータ自体ではありません。これは、単にpdfをコピーする可能性が非常に高いです。 –
関連する問題
- 1. テキストの行からどのようにintを抽出できますか?
- 2. MySQLデータベースから文字ごとにテキストを抽出するにはどうすればよいですか?
- 3. pythonとpyPdf - 行間に空白があるようにページからテキストを抽出する方法
- 4. テキストと文字の差分を行ごとに実行するにはどうすればよいですか?
- 5. 行ごとにフローを分割し、属性にテキストを抽出するNIFI
- 6. Python:100行のテキストから1文字列を抽出する
- 7. グループごとに最新の行を抽出する方法は?
- 8. 行列からrownamesをどのように抽出するのですか?
- 9. Pythonで特定のテキスト行からテキストを引き出すにはどうすればよいですか?
- 10. Pythonのセレンどのように抽出テキスト要素の後
- 11. どのようにPythonで別のペアごとに行列のベクトル内積を行うには?
- 12. クロスバリデーション:行ごとにモデル値を抽出しますか?
- 13. vbaのテキストから行ごとにテキストをコピーする方法は?
- 14. どのように行ごとにbashスクリプトを実行しますか?
- 15. Python-Text行からのデータの抽出
- 16. R出力から特定のテキスト行を抽出する
- 17. どのようにPythonでテキストファイルからURLを抽出するのですか?
- 18. jsfで行ごとにデータテーブルのテキストを検索するにはどうすればよいですか?
- 19. どのようにPython 2.7を使用してWebページからテキストを抽出するのですか?
- 20. どのように間にコンテンツを抽出しない、とPython
- 21. データセットのn番目の行ごとに抽出
- 22. どのように私はこのコード行からの出力をプリントアウトしようとしているのPython
- 23. Javaの:どのようにラインごとのx行を追加するには?
- 24. IDごとに1行を抽出します
- 25. Pythonはどのように私は次のようにウェブクロールスクリプトから文字列を抽出している
- 26. どのように特定の条件で行ごとに
- 27. 行列のセルから値のペアを抽出するにはどうすればよいですか?
- 28. 各行の列から特定の要素を抽出するにはどうすればよいですか?
- 29. Pythonで「見られた」PDFからテキストがどのように抽出されますか?
- 30. マクロを取得するにはどのようにクエリレコード/行ごとにアクションを行う?
StackOverflowはあなた自身の問題を最初に解決しようとしています(http://meta.stackoverflow.com/questions/261592)、また[宿題に関する質問に回答しません](https:// softwareengineering.meta.stackexchange.com/questions/6166)。既に試した内容を[最小限で完全で検証可能な例](http://stackoverflow.com/help/mcve)に表示するために質問を更新してください。詳細については、[良い質問をする方法](http://stackoverflow.com/help/how-to-ask)を参照し、[サイトの見学]を受けてください(http://stackoverflow.com/tour ):) – Barmar
私はこれを試していますが、それは全体のテキストを与えています。私は行ごとにテキストを抽出したい。 輸入PyPDF2 pdfFileObj =オープン(R'C:デスクトップの\ new.pdf」、 'RB' \ \ユーザー) pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getPage(0) テキスト= STR(pageObj .extractText()) –
質問にあなたのコードを書いて、適切にフォーマットされて読みやすいようにしてください。 – Barmar