一般的なバイナリ形式の索引付け用の全文検索エンジンを開発しています。私はすでに、このような質問(およびソリューション)のhunderedsがあることを知っているが、私はそれはタフな1見つけることが見つかりました: PDF、DOC、DOCXをPythonでテキスト形式に変換するソリューション
- クロスプラットフォームをpythonで
- は、PDFファイルのための主要な共有ホスト
一般的なバイナリ形式の索引付け用の全文検索エンジンを開発しています。私はすでに、このような質問(およびソリューション)のhunderedsがあることを知っているが、私はそれはタフな1見つけることが見つかりました: PDF、DOC、DOCXをPythonでテキスト形式に変換するソリューション
.doc
ファイルを読み取ることができます任意の純粋なPythonモジュールを認識していないです.doc
ファイルからテキストを抽出するコマンドラインツールがあります:antiwordとcatdoc(およびおそらく他のもの)。パッケージが共有ホストにインストールされている場合は、subprocess
を使用してこれらのツールにシェルすることができます。 Cygwin経由でWindows上で利用できます。subprocess
を使用して実行できます。一つの可能な解決策を使用することができますOpenOfficeのを使用することができた場合は、バイナリの.doc、ファイルからテキストの内容を抽出するためにGoogleドキュメントを使用することです。ドキュメントをGoogleドキュメントにアップロードし、テキストコンテンツをダウンロードします。これはかなり遅いプロセスですが、ネットワークアクセス以外の外部ツールは必要ないため、私が知っている唯一の「純粋なPython」ソリューションです。 catdocやantiwordなどの外部ツールは、ホストにインストールすることができれば、はるかに優れたソリューションです。
Textractは、あらゆる種類のファイルにデフォルトのツールを使用します。
編集提案によれば、著者はdocxモジュールを使用しました。 –