docまたはdocxドキュメントをtxtファイルに変換するためのプログラムを検索しています。私たちはLinuxで作業しており、ユーザーがアップロードしたdocファイルを変換するウェブサイトを開始したいと考えています。私たちはそれを悪い経験を持っているオープンオフィス/自由なオフィスの原因を使用したくない。 Pandocはdocファイルを処理できません:/コマンドラインでdocをtxtに変換する
誰かがアイデアを持っていますか?
docまたはdocxドキュメントをtxtファイルに変換するためのプログラムを検索しています。私たちはLinuxで作業しており、ユーザーがアップロードしたdocファイルを変換するウェブサイトを開始したいと考えています。私たちはそれを悪い経験を持っているオープンオフィス/自由なオフィスの原因を使用したくない。 Pandocはdocファイルを処理できません:/コマンドラインでdocをtxtに変換する
誰かがアイデアを持っていますか?
ここには、それを行うと主張するperl projectがあります。私はdocument.xml上でXSLTを使用して、これを手作業で多く行ってきました。 Docxファイル自体は単なるzipファイルです。ファイルを解凍して要素を調べることができます。私はこれが特定のファイルに対しては難しいことではないが、一般的なケースでは非常に難しいと言います。なぜなら、Wordが物事を内部的に保存する方法や内部表現の違いに関する文書がないからです。
.docまたは.docx形式で作業している場合は、2つの異なるコマンドラインツールを使用する必要があります。 .docx使用docx2txtについて
catdoc foo.doc > foo.txt
:.DOC使用catdocについて
docx2txt foo.docx
後者は、元と同じディレクトリにfoo.txtのと呼ばれるファイルを生成します。
あなたが使用しているLinuxディストリビューションは不明ですが、catdocとdocx2txtの両方がUbuntuリポジトリから入手可能です。