2
python(.pdf .doc .docx)でさまざまな種類のファイルから情報を抽出しようとしていますが、別のファイルを処理していますが、必要ないときにスペースと改行を取得していますその他多くの問題があります。私はPyPDF2とPDFマネージャを試してみました。ファイルから情報を抽出できるものを私に提案してください。現在、私は.pdfファイルから正確なテキストを抽出することができます何かを探してすべての種類のファイルをPythonで読む
EDIT
。私はPyPDF、PDFMiner、PDF Managerを試してきましたが、すべてのPDFファイルに問題があります。
私はそのすべてのpdfファイルのために働いていないpdfminer使用。また、あなたは.DOCや.docxの – skag
のために何かを提案することができ、私はあなたがhttp://davidmburke.com/2014/02/04/python-convert-documents-doc-docx-odt-pdf-to-plainを参照することができると思います-text-without-libreoffice /対応するファイル形式です.Cheers! – gowtham
ランダムなスペースを取得することもできます。 – skag