私は、java.util.zipクラスを使用してJavaでMicrosoft DOCXファイルを正常に読み込んでいます。 MS XMLをXSLTを使用して必要なものに変換することから始めます。私はHTMLを出力しているので、ndash、ldquo、rdquo、egrave、eacute、uuml、aumlなど何もしなくても、明白な文字のほとんどがXSLTによって正しくエスケープされていることに気づきます。 XSLT出力をさらに処理します。Java XSLTフランス語、ドイツ語、ギリシャ語を同じ文書でどのようにエスケープできますか?
私の問題は、フランス語とドイツ語に加えて、私もギリシャ語があることです。ギリシャ語はXSLTによってエスケープされませんが、XSLT出力に正しく表示されます。エクリプスやノートパッドを使って結果ファイルを編集すると、エスケープされていないギリシャ語が正しく表示されます。しかし...
JavaコードでXSLT出力を処理すると、ギリシャ語がスクランブルされ、ページが誤ってエンコードされた場合に表示される通常のランダムな文字が保存されます。
明らかに私はこれを正しい方法でエンコードしていません。 ISO-8859-1のすべての文字がエスケープされているので、私はUTF-8でそれをやろうとしています。
誰かが私が間違っているかもしれないと示唆できますか? XSLTが私のためにギリシア文字をエスケープする方法はありますか?
あなたが間違っているのは、正規表現でHTMLを処理していることです... –
あなた自身のやや謎めいたコメントをありがとうございます。それにバンがあるということですか?文書化された制限がありますか?それともあなたの意見ですか? – casgage