2017-05-21 14 views
0

は、私は次のようにHTMLドキュメントがあるとしています(doc.bodyを呼び出すJsoup本体()不要なテキスト

This is not body<body> 
This is body 
</body> 

)テキスト()を返します。

This is not body This is body 

私のための方法はありますこれらの2つのテキストを分離するには?

答えて

0

jsoupオンラインデモをテストするには、このオプションを持っています。

String html = 
     "This is not body<body>\r\n" + 
     "This is body\r\n" + 
     "</body>"; 
Document document = Jsoup.parse(html, "", Parser.xmlParser()); 
System.out.println(document.body().text()); 

This is bodyを返します。

+0

ありがとうございました! –

0

html仕様の寛大さのために表示される動作は正しいですし、ブラウザは、ウェブの初期段階から不正なマークアップをサポートするために最善の努力をするほど十分に寛容でなければなりません。

XmlTreeBuilderを使用すると、「ドキュメントにHTML DOMルールを適用せずにXMLを解析する」ことができます。あなたがXMLではなくHTMLとしてこのテキストを解析しようとすることができhttps://try.jsoup.org/~KHbtVb7vli8fKNGtd9jIl6TK6xA

関連する問題