2016-05-11 4 views
0

airbnbのWebページから客室のレビューを掻き出そうとしています。たとえば、このWebページから:https://www.airbnb.com/rooms/8400275Web-Scraping with rvestが正しく動作しない

これは私のコードです。私は、使用したパックとselectorgadgetを使用しました:

x <- read_html('https://www.airbnb.com/rooms/8400275') 
x_1 <- x%>%html_node('#reviews p')%>%html_text()%>%as.character() 

私はそれを修正するのを手伝ってもらえますか? rvestパッケージ(xpathSApplyに慣れていません)

答えて

0

コメント自体を抽出したいと思います。あなたはscriptノード内でそれを抽出しなければならないので、htmlファイルを見ると、それは簡単な作業ではないようです。だから私が試みたのはこれでした:

  • htmlを読んでいます。ここでは、文字ベクトルとして を読むにはconnectionreadLinesを使用します。

  • レビュー情報を含む行を選択します。

  • str_extractを使用してコメントを抽出します。

最初の2つのステップのために、我々はまた、適切なノードを選択するために、rvestまたはXMLパッケージを使用することができます。

url <- "https://www.airbnb.com/rooms/8400275" 
con <- file (url) 
raw <- readLines (con) 
close (con) 

comment.regex <- "\"comments\":\".*?\"" 
comment.line <- raw[grepl(comment.regex, raw)] 

require(stringr) 
comment <- str_extract_all(comment.line, comment.regex) 
関連する問題