ウェブページをスクラップする際の問題

データとしてRを使用して次のウェブページを削っています：http://www.baseball-reference.com/boxes/BAL/BAL201403310.shtml。私が興味を持っているのは、Start Time Weather（ページの半分に位置しています）ですが、私はその情報をスクラップできませんでした。ウェブページをスクラップする際の問題

は、セレクタガジェットを使用して、私はコード化された：

game <- read_html(x= "http://www.baseball-reference.com/boxes/BAL/BAL201403310.shtml") 

weather <- game %>% 
html_node(".section_wrapper+ .section_wrapper div:nth-child(5)") %>% 
html_text() 

weather 

[1] NA

どのように私はNAを避けるために自分のコードを変更することができますか？これは他のゲームのページでも起こります。

私があなたを助けてくれることを願っています！私は正しい道を見つけることができない。

出典

2017-04-18 josehernandez

'ベース:: readLines'を使うのか？ 'lines < - readLines（" http://www.baseball-reference.com/boxes/BAL/BAL201403310.shtml "）のようなものです。 lines [grepl（ "Start Time Weather"、lines）]] ' – chinsoon12

chinsoon12、ちょうど試してみました！どうもありがとうございます。 – josehernandez

次のようにデータの解析する前に開始時間天気ラインをサブセット化readLinesを使用することができます。

#http://www.baseball-reference.com/boxes/ARI/ARI201403220.shtml 
lines <- readLines("http://www.baseball-reference.com/boxes/BAL/BAL201403310.shtml") 

library(rvest) 
weather <- read_html(lines[which(grepl("Start Time Weather", lines))]) %>% 
    html_node("div") %>% 
    html_text() 
gsub("Start Time Weather: ", "", weather)

出典

2017-04-18 07:41:29 chinsoon12

ありがとう、chinsoon12！ – josehernandez

ウェブページをスクラップする際の問題

答えて

関連する問題