1
私は他の多くのstackoverflowの回答を読んでいますが、まだ満足のいく答えが見つかっていません。私は、PDF文書を読むためにPyPDF2を使用しようとすると、文のすべての単語を1つの連続した文字列にマージします。誰もがこれを避ける方法を考え出すのにどんな進歩もなしましたか?下記のコードの下PyPDF2はすべての空白を削除することを主張しています
import PyPDF2
import pandas as pd
import struct as struct
from nltk import word_tokenize
pdfFileObj = open("notes.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
## reading pages fine
print(type(pdfReader.numPages))
## read in the pages
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
が
2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics.
3)Datasummarization(graphicalandnumerical)
4)Probabilityandrandomvariables