この(imo)厄介な「無限スクロール」スタイルを使用するサイトはたくさんあります。 これは、tumblr、twitter、9gagなどのサイトです。C#で無限スクロールをシミュレートしてページのフルHTMLを取得する
私は最近、HtmlAgilityPackを使用してこれらのサイトからいくつかの写真をスクラップしました。
HtmlWeb web = new HtmlWeb();
HtmlDocument doc = web.Load(url);
var primary = doc.DocumentNode.SelectNodes("//img[@class='badge-item-img']");
var picstring = primary.Select(r => r.GetAttributeValue("src", null)).FirstOrDefault();
これは正常に動作しますが、私は特定のサイトからHTMLをロードしようとしたとき、私は私だけ戻ってコンテンツの少量を得たことに気づいた(最初の10「ポスト」を言うことができますか。このような "pictures"など)。 これは、C#のページの「スクロールダウン」をシミュレートすることが可能かどうか疑問に思いました。
これは、私が単にtumblrのようなサイトに行くときに、プログラムでHTMLを読み込んだときだけではなく、Firebugや「ソースを表示」をチェックして、しかし、それの多くは隠されている/ javascriptで挿入されているようだ。実際に画面に表示されるコンテンツのみがHTMLソースに存在します。
私の質問は:無限にページをスクロールして、そのHTMLをC#(できれば)で読み込むことは可能ですか?
(私はtumblrのやTwitterのためのAPIを使用することができることを知っているが、私はちょうどHtmlAgilityPackと一緒に何かをハッキングいくつかの楽しみを持ってしようとしている)