2016-06-12 13 views
0
public static void main(String[] args) throws IOException { 
    Document doc = Jsoup.connect("https://www.google.com/search?q=tesla&oq=tesla&aqs=chrome.0.69i59l3j0l3.494j0j9&sourceid=chrome&ie=UTF-8#q=tesla&tbm=nws").userAgent("Mozilla").get(); 

    Elements links = doc.select("div[class=_cnc]"); 
    for (Element link : links) { 
     Elements titles = link.select("h3.r_U6c"); 
     String title = titles.text(); 
     System.out.println(title); 
     System.out.println("Headline: " + link.text()); 
     System.out.println("Link: " + link.attr("data-href")); 
    } 
     }} 

ここはHTMlレイアウトです。各リンクのタイトルを抽出したいと思います。私は自分のコードのCSSセレクタ部分をどのようにフォーマットするのかは分かりません。私は古いスレッドを見ようとしましたが、動作するものは何も得られませんでした。私は実際のリンクではなく見出しのテキストを探しています。印刷リンクステートメントは、私が走り出せなかったいくつかのテストのためのものでした。Jsoupを使用してGoogleニュース検索からすべての見出しを取得する方法

おかげでみんな Picture of HTML

答えて

0

あなたがフェッチしようとしているページはJavaScriptを使用してロードされます。 JsoupはJavascriptスクリプトを処理しません。

代わりにSeleniumまたはui4jのようなツールを使用してください。

関連する問題