2017-09-12 12 views
1

に「ダイナミックウェブサイト」のソースを取得し、私は(失敗)し、その後JBrowserDriverで(あまりにも失敗)Jsoupで試してみました - >コンテンツが常にありますjavascriptで 'マスク'。は私がwww.lifehack.org</p> <p>のコンテンツを取得しようとしていたJava

JavaのHTMLコンテンツを取得する方法はありますか?に動作していないものの

例:

POM:

<groupId>com.machinepublishers</groupId> 
<artifactId>jbrowserdriver</artifactId> 
<version>0.17.9</version> 

のJava:

JBrowserDriver driver = new JBrowserDriver(Settings.builder() 
      .proxy(proxy) 
      .timezone(Timezone.PACIFIC_AUCKLAND) 
      .userAgent(UserAgent.CHROME) 
      .javascript(true) 
      .ssl("compatible") 
      .build()); 

    driver.get("http://www.lifehack.org"); 
    System.out.println(driver.getPageSource()); 
+0

標的部位は、HTMLは[:反応するタグ]によって生成されることを意味しreact' 'で書いているので。 –

+0

これを取得する方法はありませんか? – Tyvain

+0

最初にjavascriptを実行しない限り、HTMLコンテンツを取得する方法はありません。 –

答えて

0

JWebBrowserDriver実際に検索されますと、内部でJavaScriptを使用してページをレンダリングするが、あなたは持っていますJWebBrowserDriver API経由でページとやり取りします。例えば

、印刷すべてのテキストリンク:

driver.findElements(By.xpath("//a[. != '']")) 
     .forEach(e -> System.out.println(e.getText())); 
関連する問題