私はhttp://www.sports-reference.com/cbb/schools/duke/2010.htmlから6番目(または "アドバンス")のテーブルを取得しようとしています。スポーツページから掻き出しテーブル - AdBlock干渉
htmltabまたはXMLを使用すると、intergerリファレンス(つまり、1番目のテーブルは1、2番目は2など)またはXPathを使用してテーブル1〜3をスクレイプできました。私はテーブル4,5、または6を同じ方法で削ってはいけません。
library(htmltab)
url <- "http://www.sports-reference.com/cbb/schools/duke/2010.html"
duketable1 <- htmltab(doc = url, which = 1) #Using number
duketable1 <- htmltab(doc = url, which = "//*[@id='all_roster']") #Using XPath
同じフレームワークを使用してテーブル6(または4と5)をスクラップできません。 XMLと同じ
duketable6 <- htmltab(doc = url, which = 6)
duketable6 <- htmltab(doc = url, which = "//*[@id='all_advanced']")
(最初の3つのテーブルを読み込む)
library(XML)
url <- "http://www.sports-reference.com/cbb/schools/duke/2010.html"
tables <- readHTMLTable(url)
names(tables)
私の最高の推測では、<div class="adblock">
ある何かに影響を与えるが、私はどのようにそれを回避するには考えていますさ。事前に任意のヒントをありがとう。