2016-09-15 9 views
0

DocxをHtmlに変換しようとしていますが、Docxに画像、WMF形式のMathType方程式、$の区切りのtex形式の単語方程式が含まれている可能性があります。ruby​​を使用してdocxからword式への変換式

私はpandocとのLibreOfficeを使用してHTMLにDOCXを変換しようとしている:

問題pandocを使用して: PandocはMathTypeの方程式をスキップするので、私はdocument.xmlを読み、gimp's convertコマンドラインツールを使用してPNGにWMFを変換する必要がありました。

これは、方程式のいくつかを非常に判読不能な形式にします。

libreofficeを使用している問題: 実際にはHTML形式の文書全体がHTML形式に変換されますが、変換時には単語方程式が端辺から切り取られます。

私が欲しいのは、DocxをHtmlに変換できるツールであり、MathType式と単語方程式を両方ともtexフォーマットに変換します。

私はこれをRubyで行うことをお勧めしますが、すべての回避策やアイデアも同様に歓迎します。

ありがとうございました。

答えて

1

pandoc docxリーダーsupports only OMML数学ではなく、古いMathTypeです。

pandoc filterは、pandoc AST(これは平文のままです)に数式を入力して、pandoc math elementsに変換して、pandoc LaTeXライターが自動的にTeX mathに変換します。

関連する問題