2017-12-08 14 views
0
import docx2txt 

my_text=docx2txt.process("file1.docx") 
print(my_text) 

私はそれが次のエラーを示し、このコードからのdocxファイルを読みたい:コメント欄で述べた@cowbertよう読み取りのdocxファイルエラー

File "/usr/lib/python3.5/zipfile.py", line 1093, in _RealGetContents 
    raise BadZipFile("File is not a zip file") 
zipfile.BadZipFile: File is not a zip file 
+0

docxファイルは実際にはXMLであり、zipファイル内のいくつかのメタデータです。解析するには、最初に解凍する必要があります。 zipは、ファイルを解凍することができないと主張しています(実際のdocxファイルではないか、魔法番号がzip圧縮ファイルを示さないという点で破損しています)。 'file1.docx'は実際にunzip/winzip/7zipとOfficeで開きますか(オフィス97互換モードではないと言います)? – cowbert

+0

@cowbert今、私はそれが機能していない理由が壊れていたことを確認します。 –

+0

Jayさん、あなたはdocxのimportを使ってword文書を読むpython-docxモジュールを試すことができます。 – Anup

答えて

2

を、あなたのファイルはおそらく破損していますかそれはzip形式です。あなたの提供されたコードは正しいです。

import textract 
text = textract.process("path/to/file.extension") 

このパッケージは、いくつかのPythonパッケージおよびその他のソースライブラリの上に構築されています。また、.docxファイルをサポートしているtextract使用することができます。インストールすると、several packeges(docx2txtを含む)がすべてこのパッケージと共にデフォルトでインストールされます。

+0

は、pyhthon3でtextractが動作していますか? –

+0

はい、単に 'pip'または' easy_install'をインストールしてtextractをインストールしてください – Ssein

関連する問題