2017-05-14 4 views
0

私はGoogle Scholarのhtmlからタグを抽出する必要があります。私はスクリプトを書いたが、それはすべてのものを抽出する。私は紙のダウンロードリンクが休止している特定のタグを抽出する方法を見つけることができません。助けてください。! は、以下のコード<a>をダウンロードするにはpdfファイルをダウンロードするリンクが含まれているgoogle scholar

public static void main(String[] args) throws IOException { 
Document doc; 
     try { 


      doc = Jsoup.connect("https://scholar.google.com.pk/scholar?q=Bergmark%2C+D.+%282000%29.+Automatic+extraction+of+reference+linking+information+from+online+documents.+Technical+Report+CSTR2000-1821%2C+Cornell+Digital+Library+Research+Group&btnG=&hl=en&as_sdt=0%2C5").get(); 


      String title = doc.title(); 
      System.out.println("title : " + title); 


      Elements links = doc.select("a[href]"); 
     // Elements link = doc.select(".pdf"); 
      for (Element link : links) { 

       // get the value from href attribute 
       System.out.println("\nlink : " + link.attr("href")); 
       System.out.println("text : " + link.text()); 

      } 

     } catch (IOException e) { 
      e.printStackTrace(); 
     } 

であり、ここで、これは、このタグの構造は次のとおりです。CSSクエリとして

<a href="https://ecommons.cornell.edu/bitstream/handle/1813/5809/2000-1821.pdf?sequence=1" data-clk="hl=en&amp;sa=T&amp;oi=gga&amp;ct=gga&amp;cd=0&amp;ei=YBMXWYbRO8a72Ab_2o24CQ"><span class="gs_ctg2">[PDF]</span> cornell.edu</a> 
+0

はあなたのコードを表示!! –

+0

@を見てください! –

+0

ありがとうございました。 –

答えて

0

使用div.gs_ggsda[href]

ここ

div.gs_ggsd => Select all the div Tag that have class name gs_ggsd 

例:

try { 
    Document doc = Jsoup 
      .connect("https://scholar.google.com.pk/scholar?q=Bangla+Speech+Recognition") 
      .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.152 Safari/537.36") 
      .get(); 

    String title = doc.title(); 
    System.out.println("title : " + title); 

    Elements links = doc.select("div.gs_ggsd").select("a[href]"); 

    for (Element link : links) { 
     System.out.println("\nlink : " + link.attr("href")); 
     System.out.println("text : " + link.text()); 
    } 

} catch (IOException e) { 
    e.printStackTrace(); 
} 

続きを読む:https://jsoup.org/cookbook/extracting-data/selector-syntax

+0

はエラーと例外はありませんが、出力はありませんでした。これはh3のためですか? thtの場合、そのntのオプション..!私のシステムは複数の論文をダウンロードするので、未払いのpprのダウンロードリンクをすべて抽出する必要があります。 –

+0

@farooqahmed回答更新 –

関連する問題