は、私は次のようにHTMLドキュメントがあるとしています(doc.bodyを呼び出すJsoup本体()不要なテキスト
This is not body<body>
This is body
</body>
)テキスト()を返します。
This is not body This is body
私のための方法はありますこれらの2つのテキストを分離するには?
は、私は次のようにHTMLドキュメントがあるとしています(doc.bodyを呼び出すJsoup本体()不要なテキスト
This is not body<body>
This is body
</body>
)テキスト()を返します。
This is not body This is body
私のための方法はありますこれらの2つのテキストを分離するには?
:
jsoupオンラインデモをテストするには、このオプションを持っています。
String html =
"This is not body<body>\r\n" +
"This is body\r\n" +
"</body>";
Document document = Jsoup.parse(html, "", Parser.xmlParser());
System.out.println(document.body().text());
This is body
を返します。
html仕様の寛大さのために表示される動作は正しいですし、ブラウザは、ウェブの初期段階から不正なマークアップをサポートするために最善の努力をするほど十分に寛容でなければなりません。
XmlTreeBuilderを使用すると、「ドキュメントにHTML DOMルールを適用せずにXMLを解析する」ことができます。あなたがXMLではなくHTMLとしてこのテキストを解析しようとすることができhttps://try.jsoup.org/~KHbtVb7vli8fKNGtd9jIl6TK6xA
ありがとうございました! –