HTMLagilitypackはコンテンツを解析できません

私は自分のC＃プロジェクトGeckofxとHtmlagilitypackを使っていくつかのWebサイト（Xing、LinkedInなど）を解析しています。 LinkedInはウェブページを更新しているため、情報を解析することはできません。ページがロードされた後に情報がajaxでロードされているためです。そのため、必要な情報はソースコードで準備されていないため、情報を取得するためにHtmlAgilityPackが無効になっています。 https://www.linkedin.com/in/johntroch/HTMLagilitypackはコンテンツを解析できません

どのように私は、コンテンツを解析することができます。たとえば

ページを参照してください？

出典

2017-03-14 Cenk Ten

リンク先のリンクから取得したいものは何ですか？ –

たとえば、彼の名前、地位、都市ですが、ソースコードを見ると絶対に情報はありません。 –

私は今週初めに同じことを考えていました。この同様の質問から答えはまだ適用される場合は残念ながら、使用して行うことは不可能であるだけでHTMLAgilityPack :(

あなたは HAPでそれを行うことはできませんが、セレンの助けを借りてそれを行うことができます

HTMLAgilityPack load AJAX content for scraping

出典

2017-03-14 11:37:53

HTMLAgilityPackの代わりに何を使うべきですか？ –

Firefox内でfirebugアドオンを試してみることができます。これは、HTMLAgilityPackとは異なり、マークアップだけでなく、DOMを使用すると考えています。標準のXPATHの代わりに、できるだけクラスごとにdivを得るために支払うでしょう。サイト構造が変更された場合は、コードを更新することを気にしない限り。 –

ウェブヘッドレスブラウザ用ドライバ/ WebブラウザコントロールまたはPhantomJSここPhantomJSドライバを使用してのサンプルがある

IWebDriver driver = new PhantomJSDriver(); 
driver.Navigate().GoToUrl("https://www.linkedin.com/in/johntroch/"); 
var backpack = driver.FindElement(By.XPath("//*[contains(@class,'profile-overview')]"));

上記のコード部分は、あなたにこの取得します：。。

をここ

は、あなたがPhantomJSを使用する方法のLinkで、セレンVisit this

出典

2017-03-14 11:57:01

のために私は手動制御とそれを解決：

   while (!getSource().Contains("any text");) 
       { 
        Application.DoEvents(); 
       }

のgetSource（）私のソースコードを提供する別の方法でありますページの私は私のテキストを取得するまでのチェックを行います。それから、私はすべてのソースコードを動的コンテンツで取得します。

出典

2017-03-15 14:26:58

HTMLagilitypackはコンテンツを解析できません

答えて

関連する問題