2011-12-21 6 views
4

MSWordの.doc/.docxファイルをプレーンテキスト形式に変換するためのc/C++オープンソースライブラリはありますか?.docプレーンテキストコンバータ

+2

Michael PalinまたはSarah Palin? –

+0

@ Paul Michael Palin。常に。 – Bojangles

+0

http://blog.stackoverflow.com/2010/11/qa-is-hard-lets-go-shopping/ –

答えて

1

私は、このタスクのためのライブラリーについては知らないが、おそらくあなたはAntiwordから重要なビットを抽出することができます。私はアンチワードがdocxを扱っているかどうかわからない。

2

これらは実際にはライブラリではありませんが、まだ有用な場合があります。私は、antiwordcatdocの2つのコンソールアプリケーションを知っています。アンチワードはGPLですが、catdocソースも利用できますが、ライセンスについてはわかりません。これらはCで書かれているので、C++からのこれらの使用が可能でなければなりません。

2

その他すべてが失敗した場合、.docxファイルは実際にはいくつかのディレクトリがあるZIPファイルです。これらのディレクトリの1つにあるファイルの1つに、マークアップ付きのXMLとして文書テキストがあります。行の終わりをマークするので処理する必要のあるタグがいくつかありますが、そのほとんどは自動修正がさまざまな項目にフラグを立てた場所や、マークアップの書式設定に含まれるランダムに分散された5レベルのネストされたタグです。

(ノーインターネットアクセスをマシン上で一度手でこれをしなければならなかった。誰かがオフィス2011でファイルを保存し、booniesに友人の場所でのOffice 2005またはそうでそれを開きたいと思いました。)