Jsoup本体（）不要なテキスト

は、私は次のようにHTMLドキュメントがあるとしています（doc.bodyを呼び出すJsoup本体（）不要なテキスト

This is not body<body> 
This is body 
</body>

）テキスト（）を返します。

This is not body This is body

私のための方法はありますこれらの2つのテキストを分離するには？

出典

2017-05-21 Jerome Lee

：

jsoupオンラインデモをテストするには、このオプションを持っています。

String html = 
     "This is not body<body>\r\n" + 
     "This is body\r\n" + 
     "</body>"; 
Document document = Jsoup.parse(html, "", Parser.xmlParser()); 
System.out.println(document.body().text());

This is bodyを返します。

出典

2017-05-21 21:30:19 Pshemo

ありがとうございました！ –

html仕様の寛大さのために表示される動作は正しいですし、ブラウザは、ウェブの初期段階から不正なマークアップをサポートするために最善の努力をするほど十分に寛容でなければなりません。

XmlTreeBuilderを使用すると、「ドキュメントにHTML DOMルールを適用せずにXMLを解析する」ことができます。あなたがXMLではなくHTMLとしてこのテキストを解析しようとすることができhttps://try.jsoup.org/~KHbtVb7vli8fKNGtd9jIl6TK6xA

出典

2017-05-21 03:58:24

Jsoup本体（）不要なテキスト

答えて

関連する問題