私はウェブスクレイピングに慣れていないし、複数のウェブページ上のテーブルを削っている。ここにサイトがあります:http://www.baseball-reference.com/teams/MIL/2016.shtml複数のウェブページ上のRテーブルを掻き集めるR
rvest
を使って、簡単に1ページでテーブルを削ることができます。そこ複数のテーブルがありますが、私は最初のものだけをこすりしたかった、ここに私のコードがある
library(rvest)
url4 <- "http://www.baseball-reference.com/teams/MIL/2016.shtml"
Brewers2016 <- url4 %>% read_html() %>%
html_nodes(xpath = '//*[@id="div_team_batting"]/table[1]') %>%
html_table()
Brewers2016 <- as.data.frame(Brewers2016)
問題は、私は戻って1970年に、ページのデートの最初のテーブルをこすりすることを指定するリンクがありますされます前年はテーブルの真上の左上隅にあります。誰が私がこれをどうやってできるか知っていますか?
私は、これを行うさまざまな方法、例えば、より効果的かもしれないrvest以外のパッケージにもオープンしています。それが私が学習を始めたので、私はrvestを使いました。
完璧なdupを見つけるためにそれらを選別するつもりはありませんが、単純にhttp:// stackoverflowを検索しただけで複数の答えがあります。 com/search?q =%5Br%5D + http%3A%2F%2Fwww.baseball-reference.com%2F – hrbrmstr