大学のウェブサイトを解析して、メインサイトからニュース(タイトル+リンク)のリストを取得しようとしていました。私は完全なウェブサイトを解析しようとしているようしかし、私が探していますリンクは、他のクラスやテーブルなどに深くネストされているここで私が使用しようとしたコードは次のとおりです。Jsoupを使用して特定のクラスからすべてのhref値を取得する
String url = "http://www.portal.pwr.wroc.pl/index,241.dhtml";
Document doc = Jsoup.connect(url).get();
Elements links = doc.select("table.cwrapper .tbody .tr td.ccol2 div.cwrapper_padd div#box_main_page_news.cbox.grey div#dyn_main_news.cbox.padd2 div.nitem table.nitemt .tbody .tr td.nitemcell2 span.title_1");
ArrayList <String> listOfLinks = new ArrayList <String>();
int counter = 0;
for (Element link : links) {
listOfLinks.add(link.text());
}
しかし、それは動作しません。 。
<span class = "title_1">
<a href="Link Adress">Link Title</a>
</span>
はたぶん、ループのいくつかの種類が、それは価値を取って、これらのタグのすべてを反復処理します:それらの一つ一つが中に配置されている場合、すべてのそれらのリンクのhref値とタイトルを取得するための良い方法は、あります彼らから?助けのための
おかげで
はなぜ単に '、(「[HREF]を」)doc.selectをしません;'選択によって返される要素の各要素に対して '.attr(" href ")'と '.text()'を呼び出します。 –