2016-04-23 7 views
0

Non Farm Payrollsの過去の日付をここでhttp://www.bls.gov/bls/archived_sched.htm(アーカイブ)からhttp://www.bls.gov/schedule/news_release/empsit.htm(今年)まで削ってみたいと思います。Web Scrape Non Farm Payrolls R

FOMCのピーター・チャン(Peter Chan)氏がこれに似た何かを達成したのは、https://github.com/returnandrisk/r-code/blob/master/FOMC%20Dates%20-%20Scraping%20Data%20From%20Web%20Pages.Rです。これは彼のコードです:

install.packages(c("httr", "XML"), repos = "http://cran.us.r-project.org") 

library(httr) 
library(XML) 

# get and parse web page content            
webpage <- content(GET("http://www.federalreserve.gov/monetarypolicy/fomccalendars.htm"), as="text") 
xhtmldoc <- htmlParse(webpage) 
# get statement urls and sort them 
statements <- xpathSApply(xhtmldoc, "//td[@class='statement2']/a", xmlGetAttr, "href") 
statements <- sort(statements) 
# get dates from statement urls 
fomcdates <- sapply(statements, function(x) substr(x, 28, 35)) 
fomcdates <- as.Date(fomcdates, format="%Y%m%d") 
# save results in working directory 
save(list = c("statements", "fomcdates"), file = "fomcdates.RData") 

私はNFPのためにそれを複製したいと思います。 FOMCの日付がすべてFOMCの日付と同じように、NFPの日付をすべて含むNFPdateを作成したいと思います。

今年はどのように行うのか知っていますか? (今年は最もシンプルなように聞いています)。ありがとうございました。

+0

BLSにはAPIと[対応するRパッケージ](https://cran.r-project.org/web/packages/blsAPI/index.html)があります。それはあなたが必要とするデータをより軽い力で扱うことができるかもしれません。 – hrbrmstr

+0

非常に興味深い、ありがとう!この方法は他のデータソースにも適用できるので、@ feats-by-jakeの応答は非常に便利です。 – Krug

答えて

1

これは現在の年度に有効です。

library(rvest) 

url <- 'http://www.bls.gov/schedule/news_release/empsit.htm' 
ses <- html_session(url) 
tbl <- html_table(ses, fill = T) 
nfpdates <- tbl[[2]]$`Release Date` 
nfpdates <- gsub('\\.', '', nfpdates) 
nfpdates <- as.Date(nfpdates, '%b %d, %Y')