2017-10-01 8 views
0

誰でも、特定のウェブサイトからRの平均価格と価値の列を読むことができます。 私は何が起きているのか理解できません。同じコードで、これらの2つの列以外のすべての列を読み取ることができます。Rをウェブサイトからプログラミングする場合の列のスクラップ方法?

私が使用しているコードがある:それをする

library(rvest) 
library(dplyr) 
url="http://relationalstocks.com/showinsiders.php?date=2017-09-15&buysell=buysell" 
url_html<-read_html(url) 
SharesTraded_html=html_nodes(url_html,'td:nth-child(6)') 
SharesTraded=html_text(SharesTraded_html) 
SharesTraded=as.numeric(gsub(",",'',SharesTraded)) 
AvgPriceDollars_html=html_node(url_html,'td:nth-child(7)') 
AvgPriceDollars=html_text(AvgPriceDollars_html) 
AvgPriceDollars 

http://relationalstocks.com/showinsiders.php?date=2017-09-15&buysell=buysell

答えて

0

最も簡単な方法は、html_tableを使用することです:

library(rvest) 
library(dplyr) 
url <- read_html("http://relationalstocks.com/showinsiders.php?date=2017-09-15&buysell=buysell") 
tb <- url %>% 
    html_node("#insidertab") %>% 
    html_nodes("table") %>% 
    html_table(fill = TRUE) %>% 
    as.data.frame() 

str(tb) 
'data.frame': 253 obs. of 9 variables: 
    $ Reported.Time: chr "2017-09-15 21:00:47" "2017-09-15 20:11:26" "2017-09-15 20:11:26" "2017-09-15 20:10:27" ... 
$ Tran.  : chr "2017-09-12 Purchase" "2017-09-13 Sale" "2017-09-14 Sale" "2017-09-15 Sale" ... 
$ Company  : chr "Double Eagle Acquisition Corp." "PHIBRO ANIMAL HEALTH CORP" "PHIBRO ANIMAL HEALTH CORP" "Guidewire Software, Inc." ... 
$ Ticker  : chr "EAGL" "PAHC" "PAHC" "GWRE" ... 
$ Insider  : chr "SAGANSKY JEFFREYChief Executive Officer, Director, 10% owner" "Johnson Richard GChief Financial Officer" "Johnson Richard GChief Financial Officer" "Roza ScottChief Business Officer" ... 
$ Shares.Traded: chr "30,000" "15,900" "39,629" "782" ... 
$ Avg.Price : chr "$10.05" "$36.46" "$36.23" "$78.20" ... 
$ Value  : chr "$301,500" "$579,714" "$1,435,758" "$61,152" ... 
$ Filing  : logi NA NA NA NA NA NA ... 
関連する問題