PDF、DOC、DOCXをPythonでテキスト形式に変換するソリューション

一般的なバイナリ形式の索引付け用の全文検索エンジンを開発しています。私はすでに、このような質問（およびソリューション）のhunderedsがあることを知っているが、私はそれはタフな1見つけることが見つかりました： PDF、DOC、DOCXをPythonでテキスト形式に変換するソリューション

が一度

は使いやすいのDOC、DOCXおよびPDF形式をサポートしてい

クロスプラットフォームをpythonで
は、PDFファイルのための主要な共有ホスト

出典

2011-07-28 aitchnyu

に設定することができ、私はPDFminerをお勧めします。
私は.docファイルを読み取ることができます任意の純粋なPythonモジュールを認識していないです
（私はそれを自分自身を使用していない）docxモジュールを試してみてください。
.docファイルからテキストを抽出するコマンドラインツールがあります：antiwordとcatdoc（およびおそらく他のもの）。パッケージが共有ホストにインストールされている場合は、subprocessを使用してこれらのツールにシェルすることができます。 Cygwin経由でWindows上で利用できます。
Apache POIは、Officeドキュメントからテキストを抽出できるJavaライブラリです。共有ホストにJavaがインストールされている場合は、Java（またはJython）コードを書き込んで、subprocessを使用して実行できます。

出典

2011-07-28 07:41:50 codeape

編集提案によれば、著者はdocxモジュールを使用しました。 –

サーバ側で、あなたは、あなたがunoconv: Convert between any document format supported by OpenOffice

出典

2011-07-28 08:18:56

一つの可能な解決策を使用することができますOpenOfficeのを使用することができた場合は、バイナリの.doc、ファイルからテキストの内容を抽出するためにGoogleドキュメントを使用することです。ドキュメントをGoogleドキュメントにアップロードし、テキストコンテンツをダウンロードします。これはかなり遅いプロセスですが、ネットワークアクセス以外の外部ツールは必要ないため、私が知っている唯一の「純粋なPython」ソリューションです。 catdocやantiwordなどの外部ツールは、ホストにインストールすることができれば、はるかに優れたソリューションです。

出典

2011-07-28 12:13:58

Textractは、あらゆる種類のファイルにデフォルトのツールを使用します。

https://github.com/deanmalmgren/textract

出典

2014-08-15 12:49:36 enthus1ast

PDF、DOC、DOCXをPythonでテキスト形式に変換するソリューション

答えて

関連する問題