問題は実際にデータを抽出するのではなく、見つけ出すことです。私はサッカーデータを手にしています。このサイトは合計で(すべての年)または年(シーズン)の間にそれをレイアウトしますが、htmlに含まれるデータはのすべての時刻のデータで、選択した季節ではなく、季節の統計が表示されます。興味深いことに、シーズンのデータをロードすると、最初にその変数のすべての時間のデータがロードされ、一時的に表示されます。 たとえば、htmlソースfor this siteの983行目の "td"タグ内の行で、Chelseaの勝利のページを26で表示すると515(Chelseaの勝利)と表示されます。 Can誰もがこの魔術を説明し、季節ごとにデータを掻く方法は?Python-BeautifulSoup&urllibで奇妙なHTML設定をWebで掻き集める
1
A
答えて
0
シーズンを選択すると、JSON形式のデータを返すAPIが使用されます。 JSONはHTMLよりも解析が簡単なので、これはあなたの仕事を楽にします。
Chromeウェブdevのツールで要求と応答を見ることができます:
- F12キーを押してChromeでページを見ているとき。
- [ネットワーク]タブに移動します。
- [フィルタ]アイコンをクリックし、[XHR]をクリックします。
あなたはfootballapi.pulselive.comへのXHRリクエストを確認する必要があり、シーズンを選択
クリックして、きれいにフォーマットの応答を確認するために、[プレビュー]タブをクリックします。
あなたのプログラムでこれらの要求を模倣できると思います。同じリクエストヘッダーのいくつかを送信する必要があるかもしれません。なぜなら、ブラウザーでAPIに直接アクセスしようとするとブロックすると思われるからです。
関連する問題
- 1. xml奇妙なxml構造を持つPythonで掻き集める
- 2. Pythonでテーブルを掻き集めるWeb
- 3. WebをPython 3で掻き集める
- 4. Facebookで掻き集めたときにウェブサイトのコードが奇妙だ
- 5. Web Pythonで特定のページを掻き集める
- 6. htmlテーブルをデータフレームに掻き集める
- 7. ポストメソッド、coockieとcaptchaでPHPのWebを掻き集める
- 8. 複数のURLでWebを掻き集める
- 9. Ruby on rails nokogiriでHTMLを掻き集める
- 10. 電子メールでウェブサイトからhtmlタグを掻き集める
- 11. PythonでウェブサイトからHTMLデータを掻き集める
- 12. ノードを掻き集める
- 13. Pythonを掻き集める
- 14. VIEWSTATEを掻き集める
- 15. Netflixを掻き集める
- 16. Pythonで掻き集めるSelenium:タグなしでhtmlテーブルを反復する
- 17. Google AnalyticsをScrapで掻き集める
- 18. jsonをPythonリクエストで掻き集める
- 19. beautifulsoupでウェブを掻き集める
- 20. Phantomjsでサイトを掻き集める
- 21. python3&beautifulsoup 4で掻き集めるウェブサイト
- 22. Rubyで利用可能なWebページの宝石/工具を掻き集める
- 23. BeautifulSoupで特定のテーブル行を掻き集める
- 24. excelとVBAを使用してWebを掻き集める
- 25. TripadvisorのWebをPythonを使用して掻き集める
- 26. Windows PhoneアプリケーションのWebページソースコードを掻き集める
- 27. Harrison Python Web Programming RSSフィードを掻き集める(3.4.2)
- 28. パンダスWeb複数ページを掻き集める
- 29. Beautifulsoup掻き集め本カタログ
- 30. HTMLタグ内のファイルからテキストを掻き集める