2016-07-18 4 views
0

.docxとそれ以降の潜在的なファイル形式を標準XMLに変換しようとしています。このXMLは、XSLTを通じて選択したXML(xsd)にマッピングされます。DocXや他のFileFormatsから特定のXSDへのドキュメント変換を処理するには?

変換が成功するためには、できるだけ多くの情報要素を文書内に保持する必要があります。最も重要なのは、文書内の構造、内容、表、リスト、図形(イメージなど)です。

私たちは、この仕事が複雑であり、どのような種類の文書をサポートできるかに重大な制限があることを知っています。

異なる標準があるため、それぞれにコンバーターを実装するのは時間がかかります。

Document Conversion to XMLの経験がある人はいますか?進める方法に関するヒント?

答えて

1

DOCXから任意のXML形式への変換が大きな仕事になることは間違いありません。私たちが希望何

は、XSLTを使用して指定XSDと XMLに変換することができる標準のXMLへの.docxやその他の潜在的なファイル 形式を変換することです。

DOCXファイルは、すでにOffice Open XML(OOXML)として知られている標準XML形式です。導入については、Office Open XML Overviewを参照してください。

これは複雑な領域であることがわかりました。サポートする文書の種類は になります。 重要なことは、構造とコンテンツを保存できることです。

OOXMLは、どの「構造とコンテンツ」を識別しようとしているかによって、解決しなければならない非常に困難な分類問題があるかもしれません。問題は、正確なターゲットフォーマットを知るほど難しいでしょう。一般的なケースで答えることは実現可能ではありません。キーワード、見出しなどのパターンベースのマッチングによって、ソース文書内のターゲットフォーマットのより構造化された部分を特定することができます。

関連する問題