jsoupの特殊文字の変換を防ぐにはどうすればいいですか？

以下の単純化の例を見てください：jsoupの特殊文字の変換を防ぐにはどうすればいいですか？

public static void main(String[] args) { 
     String html = "<html>\n" + 
        " <head></head>\n" + 
        " <body>\n" + 
        " <div> \n" + 
        " <p> 2 <= X </p> \n" + 
        " </div>\n" + 
        " </body>\n" + 
        "</html>"; 
     Document doc = Jsoup.parse(html);      
     System.out.println(doc.select("p").outerHtml()); 
    }

これは<p> 2 <= X </p>出力しますが、私はそれがあったように、選択したHTML部分をプリントアウトすることを期待しています：<p> 2 <= X </p>。 jsoupに '<'のシンボルを変換しないように指示するにはどうすればよいですか？

出典

2016-12-16 RedSea

あなたの入力が有効なHTMLではありません。 Jsoupはあなたのためにそれをエスケープするのは間違いありません。 –

私は入力を制御できません。 jsoupにhtmlの妥当性を無視し、文書をパーズするように指示する方法はありますか？ – RedSea

jsoupを使用することができます。

jSoup 1.8.3では、元のhtmlを保持するメソッドParser.unescapeEntitiesを使用することができます。

import org.jsoup.parser.Parser; 
... 
String html = Parser.unescapeEntities(original_html, false));

一部の以前のリリースでは、この方法は存在しませんでした。

は、あなたがこのためにはApache CommonsのStringEscapeUtils.unescapeHtml4（）を使用することができthis link.

出典

2016-12-16 14:21:00 Tsopic

ありがとうございます。それがトリックでした。しかし、第2のブーリアンパラメータは何ですか？ – RedSea

trueまたはfalseに設定すると違いはありませんか？ – RedSea

@RedSea - boolean paramの詳細をご覧くださいhttps://jsoup.org/apidocs/org/jsoup/parser/Parser.html#unescapeEntities-java.lang.String-boolean- – nullpointer

からもっと読む

System.out.println(StringEscapeUtils.unescapeHtml4(doc.select("p").outerHtml()));

http://commons.apache.org/proper/commons-lang/javadocs/api-3.1/org/apache/commons/lang3/StringEscapeUtils.html#unescapeHtml4(java.lang.String)

出典

2016-12-16 14:24:34 Justin

jsoupの特殊文字の変換を防ぐにはどうすればいいですか？

答えて

関連する問題