私はウェブページの本文にあるすべてのHTMLタグを調べて、その中にテキストがあるかどうかを確認しようとしています。作品の上Jsoup Fine Grained Parse
Document doc = Jsoup.connect(site).get();
Elements e = doc.body().getAllElements();
for (int i=0; i<e.size(); i++){
if(doc.body().child(i).hasText()){
System.out.println(doc.body().child(i).text());
}
}
を、私はそれを望んでいないか。もしそうであれば、私はそのテキストのプリントアウトをしたいと思います。それは複数の 'divクラス'要素を一緒に塊にするので、child()メソッドはきめ細かくないようです。 DOM Bodyをより細かくトラバースして、それぞれのタグのテキストが何であるかを確認するにはどうすればよいですか?
ありがとうございます。
もっと適切にタグを付けてください。これはデータマイニングではありません。データマイニングに関するウィキペディアの記事を読んでください。これはちょうど[タグ:web-scraping]です。データマイニングは高度な統計分析であり、ウェブサイトからデータを読み込むことはありません。 –