2011-10-20 6 views
3

通常、私はgrep -r --color word /path/dirで検索していますが、これはバイナリファイルではうまくいきません。ですから、私は同様のことをするPerlスクリプトを書こうと思います。したがって、私は、Linuxマシン上のdocファイルを読むことができるモジュールを探しています(ms-word-documentsのSpreadsheet :: ParseExcelに類似したものかもしれません)。linuxのmsword doc-filesで検索するためのモジュールはありますか?

+0

方法1を介して変換するために使用することができたかもしれません(オラクルの買収前のOpenOfficeと呼ばれるには、フォークを強制的に)あなたの要件、正確に? .docファイルと新しい.docxファイルは、非常に異なるファイル形式です。したがって、.docファイルを解析できるPerlモジュールが見つかったとしても、.docxファイルをサポートしていない可能性があります。 – knb

+0

これらは '.doc'ファイルです。 –

答えて

3

テキスト変換ツール(antidoc、wv、catdoc、unoconv ...など)がたくさんあります。彼らの出力を通してgrepすることができます。これはまた、msysgitがdocファイルをカタログ化するためのものです。

1

snarkyを聞こうとすることなく、クローズドソース独自のドキュメントを扱う危険性があります。開発者によって提供されたツールを使用しているかもしれません。あなたの実際の質問に

、あなたが行うことができますいくつかあります:

  1. ファイルを開くには、とRTF(リッチテキスト)として保存するかさえ、プレーンテキストとして、これはより検索可能でなければなりません。 LibreOfficeので
  2. オープン(誰かがそのようなプラグインを提供している場合)は、よりカスタマイズ可能な検索を許可するか、どのようなものがあり
関連する問題