1
HTML文書からいくつかの情報を抽出するサンプルプログラムがあります。あなたはjSOupで働いてきた場合はjSoupがHTMLエンティティを正しくアンエスケープしていません
import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class TestSoup {
public static void main(String[] args) {
String html = "<p>An <a href='http://example.com/'><b>exa mple</b></a> link.</p>";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();
String linkText = link.text(); // "example""
System.out.println(linkText);
}
}
あなたはこのの出力はexa mple
なければならないことを知っているだろうが、出力はexaámple
です。なぜjSoupがHTMLエンティティを適切に解読しないのですか、それとも単に間違っているのですか?
すべての私のHTMLエンティティが誤ってだけでなく、