私が書いたこの小さなスクリプトでは、PDFファイルのデータを解析するだけです。ファイル内容をクリップボードにコピーして、Pythonでプレーンテキストファイルに自動的に貼り付けます。
しかし、私はPythonの問題、具体的にはPDFファイルからテキストを読むことができないPyPDF2モジュールを実行しているようです。印刷されたデータはすべて曖昧であり、基本的には読めません。しかし、私が読むことを試みているPDFファイルを開いたときに、単純にclick drag and ctrl+c
という内容をコピーしてから、それをプレーンなtxtドキュメントに貼り付けると完璧に動作します。データを手動でコピーして貼り付けるというこのプロセスを終えると、データは読み込み可能になります。
私がしようとしているのは、正確なステップを模倣していますが、上記の手順を実行するPDFファイル内のすべてのページを通過させる代わりに自動化します。
これを達成するために他に何ができるかについての提案があれば、私はそれを高く評価します。私は、ファイルの内容は、その形式は完全に基本的に
import PyPDF2
pdfFileObj = open('sjsuclassdata.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages
pageObj = pdfReader.getPage(4)
print(pageObj.extractText())
EDIT を配置し直していたしかし何イムが今やろうとすると、単純にスクリプトを書くことでdocxファイルやプレーンテキストファイルにPDFファイルを変換しようとしています次の操作を実行します。
1)リードpdfファイル
2)はページ全体の内容をコピー(Ctrl + Aキー)
3)、プレーンテキストファイルにページ全体のペースト内容(Ctrl + V)
4)は、ファイルの最後までPDFを読ん
感謝をしかし、私は無駄にスレートをインストールしようとしています:( –