2011-07-28 100 views
0

一般的なバイナリ形式の索引付け用の全文検索エンジンを開発しています。私はすでに、このような質問(およびソリューション)のhunderedsがあることを知っているが、私はそれはタフな1見つけることが見つかりました: PDF、DOC、DOCXをPythonでテキスト形式に変換するソリューション

  • が一度
  • は使いやすいのDOC、DOCXおよびPDF形式をサポートしてい

    • クロスプラットフォームをpythonで
    • は、PDFファイルのための主要な共有ホスト
  • 答えて

    1
    • に設定することができ、私はPDFminerをお勧めします。
    • 私は.docファイルを読み取ることができます任意の純粋なPythonモジュールを認識していないです
    • (私はそれを自分自身を使用していない)docxモジュールを試してみてください。
    • .docファイルからテキストを抽出するコマンドラインツールがあります:antiwordとcatdoc(およびおそらく他のもの)。パッケージが共有ホストにインストールされている場合は、subprocessを使用してこれらのツールにシェルすることができます。 Cygwin経由でWindows上で利用できます。
    • Apache POIは、Officeドキュメントからテキストを抽出できるJavaライブラリです。共有ホストにJavaがインストールされている場合は、Java(またはJython)コードを書き込んで、subprocessを使用して実行できます。
    +0

    編集提案によれば、著者はdocxモジュールを使用しました。 –

    0

    一つの可能​​な解決策を使用することができますOpenOfficeのを使用することができた場合は、バイナリの.doc、ファイルからテキストの内容を抽出するためにGoogleドキュメントを使用することです。ドキュメントをGoogleドキュメントにアップロードし、テキストコンテンツをダウンロードします。これはかなり遅いプロセスですが、ネットワークアクセス以外の外部ツールは必要ないため、私が知っている唯一の「純粋なPython」ソリューションです。 catdocやantiwordなどの外部ツールは、ホストにインストールすることができれば、はるかに優れたソリューションです。

    関連する問題