0
Vimeo pageのHTMLをJsoupで抽出して印刷しますが、の第2部分のみが取得されます。
私は既に.maxBodySize(0)
を設定しようとしましたが、何も変わりません。これは私のコードです:JsoupはHTML文書の最初の部分を取得しません
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class PrintVimeoHTML {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("https://vimeo.com/categories/food/cooking/videos")
.header("Accept-Encoding", "gzip, deflate")
.userAgent("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36")
.maxBodySize(0)
.timeout(600000)
.get();
System.out.println(doc);
}
}
this highlighted <script>
tagから何が抽出されますか。
スクリプトより先に<div>
を抽出するにはどうすればよいですか?
js関連の可能性がありますので、jsサポート付きのヘッドレスブラウザを使用してください。 htmlunitが動作するかもしれません。 –
@FredericKleinあなたはjsoupの代わりにhtmlunitを使うべきですか? – Yoghi
試してみる価値あり。他の選択肢:セレン、ファントムズなど –