0
私はデータをマイニングするためにHTMLCleanerを使用....ここ は、それが働くん方法です:HtmlCleanerを使用して<a>タグ内にないノード要素を見つけるにはどうすればよいですか?
HtmlCleaner cleaner = new HtmlCleaner();
final String siteUrl = "http://www.apple.com/";
TagNode node = cleaner.clean(new URL(siteUrl));
TagNode[] aTagNode = node.getAllElements(true);
for(int i = 0; i< aTagNode.length; i++){
if(!aTagNode[i].hasAttribute("a")){
System.out.println(aTagNode[i].getText());
}
}
をしかし、私はいくつかの問題がある見つける.... 例えば、テキスト取得:
を <a href="/choose-your-country/">
<img src="http://images.apple.com/home/elements/worldwide_us.png" alt="United States of America" height="22" width="22" />
<span class="more">Choose your country or region</span>
</a>
spanタグ内にある「あなたの国または地域を選択してください」が、それは親ノードが「」タグであるのです.....私はそれはまた、私はちょうどこのような何かをしたいしたくありません... 。:
<p class="left">Shop the <a href="/store/">Apple Online Store</a> (1-800-MY-APPLE), visit an <a href="/retail/">Apple Retail Store</a>, or find a <a href="/buy/">reseller</a>.</p>
は、私はこれらの言葉を無視したい、Apple Online Store
、Apple Retail Store
とreseller
は、タグ内のテキストがあるので結果はStop the
、(1-800-MY-APPLE),visit an
、or find a
、および.
ありたい、そう。ありがとうございました。