にスクラップ「リリース名」列の「雇用情勢」を含むすべての日付について、ウェブスクレイプhttp://www.bls.gov/schedule/schedule/2007/2007_sched.htmが必要です。ウェブ廃車出力は次のようになります。ウェブをプレーンテキストからR
Jan. 5, Feb. 2, 2007, March 9, April 6, May 4, June 1, 2007
July 6, 2007, Aug. 3, Sept. 7, Oct. 5, Nov. 2, 2007, Dec. 7
#year can be ignored/omitted
http://www.bls.gov/schedule/news_release/2015_sched.htmために同じことを達成するために、次のように使用:
library(rvest)
pg <- read_html("http://www.bls.gov/schedule/news_release/2015_sched.htm")
# target only <td> elements under bodytext div
body <- html_nodes(pg, "div#bodytext")
# use this new set of nodes and a relative XPath to get initial <td> elements, then get their siblings
es_nodes <- html_nodes(body, xpath=".//td[contains(., 'Employment Situation for')]/../td[1]")
# clean up and make dates
nfpdates <- as.Date(trimws(html_text(es_nodes)), format="%A, %B %d, %Y")
nfpdates
下日付のリストを格納されています。私はhttp://www.bls.gov/schedule/schedule/2007/2007_sched.htmのために働くためにそのコードを適合させようとしましたが失敗しました。問題は、これらの2つのURLが異なるフォーマットで情報を格納することです。情報がHTMLテーブルではなくプレーンテキストで保存されている場合、どのようにしてそのURLから日付を抽出できますか?ありがとうございました。