httr
とXML
をRで使用してウェブサイトから情報をスクラップする方法を学習しています。テーブル数が少ないウェブサイトでうまく機能するようになっていますが、いくつかのテーブルを持つウェブサイトのために。一例として、プロフットボール参照から以下のページを使用する:https://www.pro-football-reference.com/boxscores/201609110atl.htmR:URLに複数のテーブルをスクラップする
# To get just the boxscore by quarter, which is the first table:
URL = "https://www.pro-football-reference.com/boxscores/201609080den.htm"
URL = GET(URL)
SnapTable = readHTMLTable(rawToChar(URL$content), stringAsFactors=F)[[1]]
# Return the number of tables:
AllTables = readHTMLTable(rawToChar(URL$content), stringAsFactors=F)
length(AllTables)
[1] 2
だから私は情報をこすりすることができるよ、しかし、何らかの理由で私は上の20+のうち、上位2つのテーブルをキャプチャすることができますページ。練習のために、私は "スターター"テーブルと "公式"テーブルを取得しようとしています。
他のテーブルをウェブサイトの設定や不正なコードの問題にすることはできませんか?