2016-04-28 79 views
1

私は他の多くのstackoverflowの回答を読んでいますが、まだ満足のいく答えが見つかっていません。私は、PDF文書を読むためにPyPDF2を使用しようとすると、文のすべての単語を1つの連続した文字列にマージします。誰もがこれを避ける方法を考え出すのにどんな進歩もなしましたか?下記のコードの下PyPDF2はすべての空白を削除することを主張しています

import PyPDF2 
import pandas as pd 

import struct as struct 

from nltk import word_tokenize 

pdfFileObj = open("notes.pdf", 'rb') 

    pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

## reading pages fine 
print(type(pdfReader.numPages)) 

## read in the pages 
pageObj = pdfReader.getPage(0) 

print(pageObj.extractText()) 

2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability 
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics. 
3)Datasummarization(graphicalandnumerical) 

4)Probabilityandrandomvariables 

答えて

1

出力のサンプルは、スペースを削除する方法を考え出したことはありませんが、それは非常に扱いにくいプログラムです。私はpdfMinerを使うのが最も役に立つと答えました。理解しやすく、より良い文書があります。以下は、自分と同じ問題を抱えている人のためのリンクです。

http://survivalengineer.blogspot.ie/2014/04/parsing-pdfs-in-python.html

関連する問題