2017-05-31 13 views
0

textract私はパワーポイント(.PPTX)からテキスト、Word文書(に.docx)、およびテキストファイル(* .TXT)を解析するPythonライブラリtextractを使用し始めています。私はそれをテストするための簡単なスクリプトを書いた。PythonははImportError

私は、コマンドラインまたはアイドルのいずれかで、それを実行すると、私は最後の数行があることでトレースバックを得る
# Python textract test script 
import textract 
textract.process("H:\My Documents\Test.docx") 

File: "C:...\textract\parsers\docx_parser.py", line 1 in import docx2txt ImportError: No module named docx2txt

私はhttps://pypi.python.org/pypi/textractからダウンロードし、バージョン1.5.0を使用しています。私はそれがどんな依存関係も含んでいない理由を知らない。 docx2txtとそれに続く依存関係をインストールする必要がありますか? textractパッケージに必要なものがすべて含まれていないのはなぜですか?

+0

docx2txtをダウンロードしようとしましたか? – Quartal

答えて

0

pip install xxxを使用してモジュールをインストールすることをお勧めします。それは、通常はpythonによって参照されるパスにインストールされます。また、依存関係も処理する必要があります。

手動インストールをしたか、ちょうど夕食のフォルダに抽出された場合、あなたはその後、PWDなど、それは価値のポストそしてそれを正しく設定したと思う場合は、ここで説明するHow to add to the pythonpath in windows 7?またはPython - PYTHONPATH in linux

のように、正しくパスを設定

+0

ありがとうございます。それが問題を解決しました。 – PyNerd

0

textractは、サポートするすべてのファイルタイプの依存関係を自動的にインストールしません。興味のあるものを選択してインストールしてください。

これは想像もできないほどエレガントではありませんが、これは私が思うところでは適切な設計選択です。 Pythonにはオンデマンドで依存関係をインストールする機能がないため、textractにはすべての依存関係がインストールされ、Python環境が肥大化する傾向があります。カシャップが言及として

だから、この場合には、適切なアクションは次のとおりです。あなたが必要な場合があります、他のファイルタイプの依存関係のため

pip install python-docx 

と類似しました。