2011-12-24 6 views
1

DOCX、XLSX、PPTXファイルからすべての埋め込みファイル、画像、テキストをプログラムで抽出する必要があるアプリケーションを構築しています。 DOCXファイルを調べると、私はそれらがちょうどジップパッケージであることがわかります。パッケージのルートには常に[Content_Types] .xmlというファイルがあります。このファイルの中には、すべてのテキストを含むDocument.xmlファイルの場所があります。これは、私が理解していることから、ファイルが常に同じ場所にあることが保証されていないために必要です。これは簡単ですが、すべての画像と埋め込みファイル(単語またはOleコンテナ)の格納方法を指定するドキュメントは見つかりません。Microsoft DOCX、XLSX、PPTX Archive

すべての埋め込みファイルがEmbeddingsディレクトリに追加され、すべての画像がMediaディレクトリに追加されるようです。しかし、確かにそれを私に伝えるものは見つけられません。また、アーカイブ内のxmlファイルの中には、保存されている画像やファイルの場所情報が表示されないので、埋め込みとメディアのディレクトリにはと常にだと思われます。

私が言及したように、DOCX、XLSX、PPTXファイルからすべての埋め込みファイル、画像、テキストを抽出する必要があります。 Officeをインストールしないサーバーでこれを行う必要があります。誰かがこれをして、正しい方向に向けることができたら、私はそれを感謝します。

おかげで、

+1

あなたはhttp://standards.iso.org/ittf/PubliclyAvailableStandards/index.htmlで仕様をピックアップしなかったあなたは、ISO/IECに興味がある29500から1:2011 それはどのようにXML記述ジップは動作します – rene

+0

リンクありがとうございます。私はちょうど文書を通してゴニッグを始めました.WOW、ほぼ6000ページの純粋な喜び。私は良い部分にスキップすることを願っています:-) – Scott

答えて

0

マイクロソフトはサーバー上でもサポートされている「オープンXML SDK」と呼ばれるXMLのオフィス文書を処理するためのSDKを持っています。

私は自分自身を試していませんが、zipファイルやISOドキュメントを自分で処理することなく埋め込みオブジェクトなどの要素を抽出するためのAPIがおそらく含まれています。また、ファイル構造が時間とともに変化する可能性があるため、より安全です。

ケマル

関連する問題