私はJsoup 1.9.2を使用して、特定のタグのXML入力を処理し、クリーンアップしています。この間、私は、title
タグをきれいにするように頼まれたときにJsoupが奇妙に動作することに気付きました。具体的には、title
タグ内の他のXMLタグは削除されず、エスケープされたフォームに置き換えられます。Jsoupクリーンタイトルタグのエラー
私は以下のようにこれについて短いユニットテストを作成しました。テストは失敗します.の値はCuCl<sub>2</sub>
です。
@Test
public void stripXmlSubInTitle() {
final String input = "<title>CuCl<sub>2</sub></title>";
final String output = Jsoup.clean(input, Whitelist.none());
assertEquals("CuCl2", output);
}
title
タグが他のタグ(例えば、p
またはdiv
)に置き換えている場合は、予想通り、その後、すべてが動作します。すべての説明と回避策が理解できます。
http://stackoverflow.com/questions/8683018/jsoup-clean-without-adding-html-entities – maztt