0
Python 3.6.1を実行中| Windowsデバイス上でAnaconda 4.4.0(64ビット)を実行する。 1のURLをチェックした場合、彼らは動的にロードされている素敵なテーブルが表示されます動的に読み込まれたテーブルをPandas Dataframeに変換する
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
url = "https://nextgenstats.nfl.com/stats/receiving#yards"
driver = webdriver.Chrome(executable_path=r"C:/Program Files (x86)/Google/Chrome/chromedriver.exe")
driver.get(url)
htmlSource = driver.page_source
:セレンを使用して
は、私は、次のHTMLソースを収集します。私は、このテーブルをhtmlsource
からどのように抽出して、パンダのデータフレームを構築できるのか不明です。
パンダを使用することができます( 'read_htmlを持っています) 'であり、ファイル内にすべて'
@furas 'read_html()'が 'BeautifulSoup'なしで、テーブルが見つからないというエラーを返しました。 _COLDSPEED_からの回答が機能します。 – sunspots
答えは無かったけど、何を使うべきかだけを摂取した。 – furas
答えて
あなたはかなり近いです。あなたはちょっとパンダの手伝いが必要です。要するにここにあなたがしなければならないことがあります。
BeautifulSoup
soup.find
pd.read_html
さて、
df_list
は、そのページ上のすべてのテーブルのリストが含まれて使用してください - Scrapyユーザーとして出典
2017-12-15 08:44:38
素晴らしいです、 'BeautifulSoup'は欠けていたリンクでした。 – sunspots
@sunspotsこれを行う別の方法があるかもしれませんが、私が知る限り、これは最も簡単な方法です。彼らが言うように、データを調べ、テーブルを突き止め、残りは歴史です。 –
1日か2日で、誰かが共有したいと思っていることを誰かが持っているかどうかを知るために、この質問に恩恵を与えるかもしれません。read_htmlの多数の引数を使います。 –
を、私は見ために使用していますXHRリクエスト。あなたのサイトで年を変更すると、https://appapi.ngs.nfl.com/statboard/receiving?season=2017&seasonType=REG
へのAPIコールが表示されます。このAPIはJSONを返すので、
read_json
のようなJSONパーサーをデータとして使用することは理にかなっています。は、ここでは、これがScrapyシェルで使用することができます方法は次のとおりです。
あなたはscrapyを持っていない場合、あなたは
requests
出典
2017-12-15 13:01:07 user2314737
関連する問題