2016-06-01 15 views
0

で、私は、この目的のrseleniumパッケージに使用する設備、価格...とレビュー https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMdRseleniumのWebスクレイピング例えばR

、スペース(このWebページからデータをこすりしたいです。 これが私のコードです:

url <- "https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd" 
library('RSelenium') 
pJS <- phantom() 
library('XML') 
shell.exec(paste0("C:\\Users\\Daniil\\Desktop\\R-language,Python\\file.bat")) 
Sys.sleep(10) 

checkForServer() 
startServer() 
remDr <- remoteDriver(browserName="chrome", port=4444) 
remDr$open(silent=T) 

、その後、私が見つけたSelectorGadgetの助けを借りて、私は、スクレイピングのための右の要素を考える:

var <- remDr$findElements('css selector','#details hr+ .row') 

私の質問は、テキスト(文字列)にどうやって持ち込むことができるのですか? また、データを収集するために、レセナリウムを用いた他のアプローチが存在するかもしれない。

感謝

答えて

0

私はfile.batにあるものかわからないが、あなたが上場の設備についてのデータを収集中に主に関心がある表示されます。私はちょうどあなたのコードのphantomjs部品上のFirefoxを使用してスキップ:ここから

url <- "https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd" 

library('RSelenium') 

checkForServer() 
startServer() 
remDr <- remoteDriver(browserName="firefox", port=4444) 
remDr$open(silent=T) 
remDr$navigate(url) 

var <- remDr$findElement('css selector','#details hr+ .row') 

print(var$getElementText()) 
[[1]] 
[1] "The Space\nAccommodates: 2\nBathrooms: 1.5\nBed type: Real Bed\nBedrooms: 1\nBeds: 1\nProperty type: Apartment\nRoom type: Private room\nHouse Rules" 

あなたは文字列を解析したり、追加のデータ収集を行うことができます。

関連する問題