Rvestで一部のWebサイトでセレクタを使用できない理由を理解できません。ノードがhtml_nodesで検出されない
例:
url <- read_html("http://www.cbc.ca/news/politics")
headlines <- url %>%
html_nodes(".headline") %>%
html_text()
もう一つの例:
library(RSelenium)
rD <- rsDriver(verbose = FALSE)
rD
remDr <- rD$client
url <- "http://www.cbc.ca/news/politics"
remDr$navigate(url)
remDr$getTitle()
remDr$getCurrentUrl()
webElem <- remDr$findElement(using = "class", value = 'headline')
webElem$getElementAttribute("class")
remDr$close()
rD$server$stop()
それは十分に単純である必要があります。構造を見ると、そのタイトルはクラスの見出しの下にあります。上記のクラスのカードコンテンツ、カードコンテンツトップがありますが、CSSセレクタもxpathの組み合わせも動作していないようです。
私はクラスの見出しやクラスのカード内容を見ない – lukeA
私はデベロッパーコンソールでページを見てみると、それはあります。 SelectorGadgetを使用している場合でも、それが識別されるCSSセレクターです。 – Monduiz