すべての種類のファイルをPythonで読む

python（.pdf .doc .docx）でさまざまな種類のファイルから情報を抽出しようとしていますが、別のファイルを処理していますが、必要ないときにスペースと改行を取得していますその他多くの問題があります。私はPyPDF2とPDFマネージャを試してみました。ファイルから情報を抽出できるものを私に提案してください。現在、私は.pdfファイルから正確なテキストを抽出することができます何かを探してすべての種類のファイルをPythonで読む

EDIT

。私はPyPDF、PDFMiner、PDF Managerを試してきましたが、すべてのPDFファイルに問題があります。

出典

2017-05-25 skag

個人的に私はpdfminerは、私はあなたがファイル形式に対応するためthis link を参照することができると思いPDFファイルGet it here

から情報を抽出するための最良のpythonモジュールだと思います。

出典

2017-05-25 11:22:11 gowtham

私はそのすべてのpdfファイルのために働いていないpdfminer使用。また、あなたは.DOCや.docxの – skag

のために何かを提案することができ、私はあなたがhttp://davidmburke.com/2014/02/04/python-convert-documents-doc-docx-odt-pdf-to-plainを参照することができると思います-text-without-libreoffice /対応するファイル形式です.Cheers！ – gowtham

ランダムなスペースを取得することもできます。 – skag

すべての種類のファイルをPythonで読む

答えて

関連する問題