0
rvestを使用してwikipedia(他のページのリンクを含む)からISOの国情報を取得しようとしています。私は正しく名前(私はエラーを引き起こすxpath文字列関数を試してみました)を含めずにリンク(href属性)を正しく取得する方法を見つけることができません。実行するのはかなり簡単で、自明です。R - Web Page Scraping - rvestを使用して属性値を取得するときに問題が発生しました
library(rvest)
library(dplyr)
searchPage <- read_html("https://en.wikipedia.org/wiki/ISO_3166-2")
nodes <- html_node(searchPage, xpath = '(//h2[(span/@id = "Current_codes")]/following-sibling::table)[1]')
codes <- html_nodes(nodes, xpath = 'tr/td[1]/a/text()')
names <- html_nodes(nodes, xpath = 'tr/td[2]//a[@title]/text()')
#Following brings back data but attribute name as well
links <- html_nodes(nodes, xpath = 'tr/td[2]//a[@title]/@href')
#Following returns nothing
links2 <- html_nodes(nodes, xpath = 'tr/td[2]//a[@title]/@href/text()')
#Following Errors
links3 <- html_nodes(nodes, xpath = 'string(tr/td[2]//a[@title]/@href)')
#Following Errors
links4 <- sapply(nodes, function(x) { x %>% read_html() %>% html_nodes("tr/td[2]//a[@title]") %>% html_attr("href") })
ありがとうございます!申し訳ありませんが、私はコメントが十分に良いと思った、将来的にはより多くの情報を入れようとします! –