これも可能かどうか疑問に思います。私はGoogle上でソリューションを探してきて、私がそれをしたいと思う方法で動作するものは何も出てこない。docxをクリーンなHTMLにバッチ変換する
私は、それが何を伴うのかを説明することが恩恵だと思います。私は大学のIT部門のデータベースグループに勤めています。私の主な仕事は、docxファイルでレポートの仕様を取り、それをDreamweaverにコピーし、書式を修正し、ウェブサイトに貼り付けることです。私の問題は、何度も何度もやり直すのが面倒だということです。私は、ちょっと、C#で何か書いていないと思っていました。おそらく、docxファイルを取得し、HTMLに変換し、CSSを修正し、ヘッダーとフッターをそこのWebページから貼り付けるアプリケーションを書くことができました、結果を保存します。もともと私はそれを一つずつ行うつもりでしたが、ファイルリストとバッチ変換を入力するのは難しくありません。
これを達成する方法については、これらの関連トピックがありますが、私のニーズに十分に適合していません。
http://www.techrepublic.com/blog/howdoi/how-do-i-modify-word-documents-using-c/190
これはおそらく、いくつかの文書のための罰金ですが、それだけでWordのインスタンスを自動化することですので、それが遅いとメモリ集中的になるだろうと同じように、私は感じています。私はWord 50 +のインスタンスを開いたり閉じたりしない方が好きです。
http://openxmldeveloper.org/articles/333.aspx
これは、私が使用して開始したものです。 XSLTには、各ファイルのインストールや実行が必要ないという利点がありました。いくつかの検索の後、私は概念実証の証明を得ました。それはdocxファイルを取り込み、解凍し、そこからdocument.xmlを取得し、OpenXMLビューアから掃除したDocX2Html.xslファイルを使用します。私はそれがもともとMSがブラウザでワードドキュメントをレンダリングする機能を提供するためにSharePointサーバを提供していたと考えています。あるいは、それらの行に沿った何か。
私のニーズに合わせて、objXSLT.Load()メソッドで問題が発生するように調整した後、IlMergeを使用してXSLをDLLにしました。普通の古いXSLファイルを使用しているのにコンパイルエラーが発生したのはなぜか分かりませんが、DLLは正常に動作していたので満足しました。ここ(http://pastebin.com/a5HBAakJ)は私の現在のコードです。それはdocxをHTMLに変換する仕事をしますが(いくつかの単語の間のランダムなスペースを除いて)、結果ファイルには馬鹿げたHTML構文があります。この怪獣の例はここにあります(http://pastebin.com/b8sPGmFE)。
私はこれをどのように修正できるか知っていますか?私はおそらく私は新しいXSLファイルを作る必要があると思っています。一つのMSが提供しているのは、そこにすべてのタグと余分なコードを貼り付ける責任があるからです。私の問題はそれをどうやって行うのか分からないことです。おそらくそこには別のバージョンが既に存在するでしょう。私が必要とするのは、テーブルとテキストの書式を保持するものだけです。画像は必要ありません。
あなたは手作業でやっているプロセスだと言いますが、メモリを大量に消費するWordオートメーションソリューションは満足できません。どうして?これを商用製品として販売していないのであれば、そのソリューションの有効性はなぜ重要なのでしょうか?手間のかかる手作業を自動化して、1文書につき1分かかると気になりますが、まだまだ速くなります。 – Keith
実際、私は市販品として販売していません。しかし、私は同僚と共有しようと思っており、効率的なプログラムを提供したいと思っています。私のパーソナルコンピュータは、現代的で、そのようなものを扱うための仕様まであるかもしれませんが、私は彼らがそれをどのように扱うかについて全く知らない。別の問題は、Wordへの依存です。私は彼らがすべてコピーを所有していると仮定していますが、それは単なる仮定です。私は、それらのプログラムを実行するコンピュータに関係なく効率的に動作するプログラムを提供したいと思います。 – Omega192