0
jsoup(Java)を使用してhtmlドキュメントを解析する際に問題が発生しました。私はパースだHTMLの形式は:JAX(Jsoup)を使用してhtmlを解析する
.....
<hr>
<a name="N1"> </a> Text 1<br>
<hr>
<a name="N2"> </a> Text 2<br>
<hr>
<a name="N3"> </a>Text 3<br>
<hr>
<a name="N4"> </a>
<DIV style="margin-left: 36px">
<div></div>
<img src=bullet.gif alt="Bullet point"> Text
</DIV><br>
<hr>
<a name="X5"> </a>
<DIV style="margin-left: 36px">
<div></div>
<img src=bullet.gif alt="Bullet point"> Text
</DIV><br>
<hr>
...
私は2つの「時間」タグの間にHTMLテキストを分離します。私はこのコードを試しています:
File input = new File("C:\\Users\\page.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Elements body = doc.select("body");
Elements hrs = body.select("hr");
ArrayList<String> objects = new ArrayList<String>();
for (Element hr : hrs) {
String textAfterHr = hr.nextSibling().toString();
objects.add(textAfterHr);
}
System.out.println(objects);
ArrayListには、私が望むものが含まれていないため、解決方法はわかりません。 ( "hr"タグを "hr"テキスト "/ hr"タグに変換できますか?)
ArrayListには何が含まれていますか?予想される出力は何ですか? –
'
'の直後に置かれた ' 'や、'
'の間の全文には興味がありますか? – Pshemo
ArrayListには、2つの
答えて
ここでは、各hrタグの子を読み取ることによって結果が得られます。より良い解決のためにこれを使用してください。
出典
2017-07-20 06:02:41
出典
2017-07-20 10:43:46 Eritrean
関連する問題