2017-10-17 15 views
1

現在、私たちはswiftypeを試しており、非同期呼び出しがあるためにjavascriptフレームワークを持つWebサイトをクロールする方法を見たいと思っていました。フロントエンドのjsフレームワークを持つWebサイトをクロールする方法

私はエンジンを作成して、自分のサイトマップに基づいてクロールを実行することができましたが、実際のコンテンツを読むのではなく、Angular jsコードを読み込んでいます。

例えばのために

<div ng-class='grey title'> {{ctrl.title}}</div>

のような角度のコードに何かを持っている場合、このデータは、代わりにタイトルを読んで、ページのロードにバインドされます場合

が、それはそう{{ctrl.title}} など、実際のコードを読み取ります私は「私たちはあなたを通過する。この記事では、約{{ctrl.title}}です....」ページが のようなものを返し、検索

それ共同ようにする方法上の任意のアイデアをjsフレームワークと互換性がありますか?

答えて

1

Phantom.jsのような「ヘッドレス」ブラウザを使用できます。 「ヘッドレス」は、GUIを持たないことを意味します。実際にはブラウザであるため、ページが正しく解釈されます。これは、サーバー側で実行されるJavaScriptから開始できます。 Web Scraping : Handling AJAX website part IとGitHubのコード:introWebScrapingをチェックしてください。