Web-Scraping with rvestが正しく動作しない

airbnbのWebページから客室のレビューを掻き出そうとしています。たとえば、このWebページから：https://www.airbnb.com/rooms/8400275 Web-Scraping with rvestが正しく動作しない

これは私のコードです。私は、使用したパックとselectorgadgetを使用しました：

x <- read_html('https://www.airbnb.com/rooms/8400275') 
x_1 <- x%>%html_node('#reviews p')%>%html_text()%>%as.character()

私はそれを修正するのを手伝ってもらえますか？ rvestパッケージ（xpathSApplyに慣れていません）

出典

2016-05-11 YNWA1992

コメント自体を抽出したいと思います。あなたはscriptノード内でそれを抽出しなければならないので、htmlファイルを見ると、それは簡単な作業ではないようです。だから私が試みたのはこれでした：

htmlを読んでいます。ここでは、文字ベクトルとしてを読むにはconnectionとreadLinesを使用します。
レビュー情報を含む行を選択します。
str_extractを使用してコメントを抽出します。

最初の2つのステップのために、我々はまた、適切なノードを選択するために、rvestまたはXMLパッケージを使用することができます。

url <- "https://www.airbnb.com/rooms/8400275" 
con <- file (url) 
raw <- readLines (con) 
close (con) 

comment.regex <- "\"comments\":\".*?\"" 
comment.line <- raw[grepl(comment.regex, raw)] 

require(stringr) 
comment <- str_extract_all(comment.line, comment.regex)

出典

2016-05-11 09:09:41 zyurnaidi

Web-Scraping with rvestが正しく動作しない

答えて

関連する問題