2017-05-25 12 views
2

python(.pdf .doc .docx)でさまざまな種類のファイルから情報を抽出しようとしていますが、別のファイルを処理していますが、必要ないときにスペースと改行を取得していますその他多くの問題があります。私はPyPDF2とPDFマネージャを試してみました。ファイルから情報を抽出できるものを私に提案してください。現在、私は.pdfファイルから正確なテキストを抽出することができます何かを探してすべての種類のファイルをPythonで読む

EDIT

。私はPyPDF、PDFMiner、PDF Managerを試してきましたが、すべてのPDFファイルに問題があります。

答えて

2

個人的に私はpdfminerは、私はあなたがファイル形式に対応するためthis link を参照することができると思いPDFファイルGet it here

から情報を抽出するための最良のpythonモジュールだと思います。

+0

私はそのすべてのpdfファイルのために働いていないpdfminer使用。また、あなたは.DOCや.docxの – skag

+0

のために何かを提案することができ、私はあなたがhttp://davidmburke.com/2014/02/04/python-convert-documents-doc-docx-odt-pdf-to-plainを参照することができると思います-text-without-libreoffice /対応するファイル形式です.Cheers! – gowtham

+0

ランダムなスペースを取得することもできます。 – skag

関連する問題