以下のHTMLコンテンツをJsoupパーサを使用して解析する必要があります。 要件はいくつかのタグを削除し、以下の出力を得ることです。Jsoup - 選択した要素の解析
<html>
<head>
<style type=\ "text/css\">
body {
font: 12px Arial, Helvetica, sans-serif
}
tr {
font: 12px Arial, Helvetica, sans-serif;
padding: 0px 0px 0px 10px
}
</style>
</head>
<body>
<p>hello,<br> <br>We need to dispatch the below documents to you. Thanks for your cooperation.<br><br>Best Regards</p><br>
<img id=\ "logo_GMALE.png\" alt=\ "logo GMALE\" src=\ "https://www.GMALE.ch/logo.png\">
<br><b>Test abc xyz</b><br><br>T +91 98 471 <br>
<a href=\ "mailto:[email protected]\">[email protected]</a><br><br><b>Département Team</b><br><br><b>GMALE Assurances</b><br>StreetName 2<br>Postbox 2100<br>Country<br><br>GMALE.ch<br><br>This is a private email contents.<br><br>This e-mail transmission
is intended for the named addressee(s) only. Its contents are private, confidential and protected from disclosure and should not be read, copied or disclosed by any other person. If you are not the intended recipient, we kindly ask you to notify the
sender immediately and to delete this e-mail.<br><br>
</body>
</html>
出力:
<p>hello,<br> <br>We need to dispatch the below documents to you. Thanks for your cooperation.<br><br>Best Regards</p><br>
<br><b>Test abc xyz</b><br><br>T +91 98 471 <br>
入力して所望の出力を得ることができないのですこれまでに行わ210
コードは以下の通りです:次のHTMLのbody
を解析し、<a href=\ "mailto:[email protected]\">
に至るまで、すべてのデータを抽出します。
Document doc = Jsoup.parse(content);
List<Node> childNodes = doc.select("body").get(0).childNodes();
System.out.println("Elements : " + childNodes);
StringBuilder finalContent = new StringBuilder();
for (Node node : childNodes) {
if (node instanceof Element) {
Element subElement = (Element) node;
if (!subElement.tagName().equals("img")) {
finalContent.append(subElement);
}
} else {
TextNode textNode = (TextNode) node;
if(!textNode.getWholeText().startsWith("<a")) {
finalContent.append(textNode);
}
}
}
ありがとうSzymon ..私はこの作業に取り組んでいます。私が必要とする出力は、あなたが共有するスニペットに入っていない最後の電話番号も持っています..また、すべてのimgタグはスニペット全体で削除する必要があります.. – Trin
それを指摘してくれてありがとう。私はすべての 'img'タグを削除し、電話番号を保持するテキストノードを見つけるためにスニペットを少し変更しました。 –
ありがとうSzymon .. 1つの質問.. <! - My Comment text - >のようなコメントがあり、そのコメントの後にすべてのテキストを削除したいのであれば、 "a"の代わりに。これについて何かを共有することができますか?このコメントはほとんどの場合静的になります。 – Trin