javax.xml.transform.Transformerを使用してHTMLコンテンツを取得し、XML文書に解析します(Crouton/TagSoupの組み合わせを使用しています)。これをする)。javax.xml.transform.TransformerがHTMLエンコードされた文字を変換/解析するのを防ぐ方法
私はTransformer.transform()プロセスの出力をダンプし、出力には©
のようなものが変換されていることを私は考えていません。実際のシンボル、この場合は著作権シンボルに変換します。
最終的に、このコンテンツはHTMLファイルとして再保存されますが、ファイル内に©
が表示される代わりに、この特殊文字はHTML標準を使用するべきではありません。
トランスフォーマーに既にエンコードされたHTML文字を無視させて実際のシンボルに変換させる方法はありますか?
これはあなたの質問に対する回答ではありませんが、なぜ '©'のようなエンティティの代わりに実際の文字を使用するのが問題ですか? – michael667
このプロセスの最終的な目標は、html(不正な形式の可能性があります)を読み込み、coldfusion xmlサポートを使用して変更し、ファイルに書き戻すことです。元のファイルはこれらの文字エンコードを使用しているので、結果のファイルで同じものを使用することをお勧めします。 出力メソッドを "html"に設定すると、これらのエンコーディングが得られますが、有効なxml(またはxhtml)マークアップが得られません(coldfusionで解析できないため)。 – jzimmerman2011
なぜこれらのエンティティが必要ですか?出力ファイルにはどの文字エンコーディングを使用していますか? UTF-8? ISO-8859-1? ASCII? – michael667