2017-04-18 7 views
0

データとしてRを使用して次のウェブページを削っています:http://www.baseball-reference.com/boxes/BAL/BAL201403310.shtml。私が興味を持っているのは、Start Time Weather(ページの半分に位置しています)ですが、私はその情報をスクラップできませんでした。ウェブページをスクラップする際の問題

は、セレクタガジェットを使用して、私はコード化された:

game <- read_html(x= "http://www.baseball-reference.com/boxes/BAL/BAL201403310.shtml") 

weather <- game %>% 
html_node(".section_wrapper+ .section_wrapper div:nth-child(5)") %>% 
html_text() 

weather 

[1] NA 

どのように私はNAを避けるために自分のコードを変更することができますか?これは他のゲームのページでも起こります。

私があなたを助けてくれることを願っています!私は正しい道を見つけることができない。

+0

'ベース:: readLines'を使うのか? 'lines < - readLines(" http://www.baseball-reference.com/boxes/BAL/BAL201403310.shtml ")のようなものです。 lines [grepl( "Start Time Weather"、lines)]] ' – chinsoon12

+0

chinsoon12、ちょうど試してみました!どうもありがとうございます。 – josehernandez

答えて

0

次のようにデータの解析する前に開始時間天気ラインをサブセット化readLinesを使用することができます。

#http://www.baseball-reference.com/boxes/ARI/ARI201403220.shtml 
lines <- readLines("http://www.baseball-reference.com/boxes/BAL/BAL201403310.shtml") 

library(rvest) 
weather <- read_html(lines[which(grepl("Start Time Weather", lines))]) %>% 
    html_node("div") %>% 
    html_text() 
gsub("Start Time Weather: ", "", weather) 
+0

ありがとう、chinsoon12! – josehernandez

関連する問題