1
に「ダイナミックウェブサイト」のソースを取得し、私は(失敗)し、その後JBrowserDriverで(あまりにも失敗)Jsoupで試してみました - >コンテンツが常にありますjavascriptで 'マスク'。は私がwww.lifehack.org</p> <p>のコンテンツを取得しようとしていたJava
JavaのHTMLコンテンツを取得する方法はありますか?に動作していないものの
例:
POM:
<groupId>com.machinepublishers</groupId>
<artifactId>jbrowserdriver</artifactId>
<version>0.17.9</version>
のJava:
JBrowserDriver driver = new JBrowserDriver(Settings.builder()
.proxy(proxy)
.timezone(Timezone.PACIFIC_AUCKLAND)
.userAgent(UserAgent.CHROME)
.javascript(true)
.ssl("compatible")
.build());
driver.get("http://www.lifehack.org");
System.out.println(driver.getPageSource());
標的部位は、HTMLは[:反応するタグ]によって生成されることを意味しreact' 'で書いているので。 –
これを取得する方法はありませんか? – Tyvain
最初にjavascriptを実行しない限り、HTMLコンテンツを取得する方法はありません。 –