は私がwww.lifehack.org</p> <p>のコンテンツを取得しようとしていたJava

に「ダイナミックウェブサイト」のソースを取得し、私は（失敗）し、その後JBrowserDriverで（あまりにも失敗）Jsoupで試してみました - >コンテンツが常にありますjavascriptで 'マスク'。は私がwww.lifehack.org</p> <p>のコンテンツを取得しようとしていたJava

JavaのHTMLコンテンツを取得する方法はありますか？に動作していないものの

例：

POM：

<groupId>com.machinepublishers</groupId> <artifactId>jbrowserdriver</artifactId> <version>0.17.9</version>

のJava：

JBrowserDriver driver = new JBrowserDriver(Settings.builder() .proxy(proxy) .timezone(Timezone.PACIFIC_AUCKLAND) .userAgent(UserAgent.CHROME) .javascript(true) .ssl("compatible") .build()); driver.get("http://www.lifehack.org"); System.out.println(driver.getPageSource());

出典

2017-09-12 Tyvain

標的部位は、HTMLは[：反応するタグ]によって生成されることを意味しreact' 'で書いているので。 –

これを取得する方法はありませんか？ – Tyvain

最初にjavascriptを実行しない限り、HTMLコンテンツを取得する方法はありません。 –

JWebBrowserDriver実際に検索されますと、内部でJavaScriptを使用してページをレンダリングするが、あなたは持っていますJWebBrowserDriver API経由でページとやり取りします。例えば

、印刷すべてのテキストリンク：

driver.findElements(By.xpath("//a[. != '']")) 
     .forEach(e -> System.out.println(e.getText()));

出典

2017-09-12 23:08:54 Misha

は私がwww.lifehack.org</p> <p>のコンテンツを取得しようとしていたJava

答えて

関連する問題