私は適切な用語を使用しない場合、私を許してください。私は情報を収集しようとしているウェブページを持っています。問題は、私がページソースを見ると、私が掻きたいデータがそこにないということです。私は、この問題に遭遇した前に、メインのhttpリクエストが他のリクエストをトリガするので、私が探している情報は実際にGoogle chromes inspect - Networkフィーチャを使用している場所です。私はさまざまな文書やxhrファイルを手動で検索し、正しい情報を持つものを探します。これは時には長くて面倒です。私はまた、私が欲しい情報が含まれている要素を調べるためにGoogleクロムの検査機能を使用することができますが、それは正しいソースコードが表示されますが、私はすぐに対応するHTTPヘッダーを見つけるために、 。google chrome inspect要素からのHTTPリクエストの検索方法
ショートカットで再入力Google Chromeのinspect要素機能を使用して、そのコードを生成した対応するネットワークイベント(HTTPリクエスト)を表示するように頼みますか?
私が取り組んでいるケーススタディを追加します。
http://www.flashscore.com/tennis/atp-singles/acapulco/results/
は、テニストーナメントで行われたさまざまな試合を示しています。私はマッチした部分を掻き取ろうとしていますが、ページのソースを見ると、そこにはないことがわかります。
おかげ
この記事を読んだ後:http://www.gregreda.com/2015/02/15/ Web-scraping-finding-the-api /データがクライアント側で処理されていることがわかりました.XHR呼び出しを見なければならないようですが、Webページ上で見られる一致のプレビューやコードを提供するものはありません。私は、サーバー側のデータを掻き集める予防的な対策を講じていると思いますか? – Vindictive
これは、予防措置と同じようなケースではありそうにありません。サイトの作者は、ブラウザ側でHTMLレンダリングを行う方が簡単だと思った可能性が高い。 – duskwuff