2012-11-06 19 views
5

は私からいくつかのデータを掻き取る(Rで)しようとしています:マウスクリックが必要なWebスクレイピング?

http://www.soccerbase.com/matches/results.sd?date=2012-11-04

つまり、私はあなたがボタンを押すと、ページに表示される試合の詳細を取得したいです。ただし、ボタンをクリックして表示される情報は、元のHTMLコードには含まれていません。私が見ることができるすべてが死んで終わりに私の葉はかなり(私は含まれるデータを期待)ライン...

<span class="infoField"><a href="#" class="info finished" title="Show full match details"></a></span> 

... ...任意のアイデアがありますか?

+1

FirefoxまたはChrome DevツールでFirebugを使用してください。ウェブサイトはhttp://www.soccerbase.com/matches/additional_information.sd?id_game=652536 –

+2

にjavascriptリクエストを行い、利用規約もお読みください。 – Spacedman

+0

@Spacedman米国では、少なくとも、これらの条件は法的に拘束力がありません。例えば、 http://www.forbes.com/sites/ericgoldman/2012/10/10/how-zappos-user-agreement-failed-in-court-and-left-zappos-legally-naked/ – hadley

答えて

4
require(XML) 
require(RCurl) 
dataurl<-'http://www.soccerbase.com/matches/results.sd?date=2012-11-04' 
sdata<-htmlParse(dataurl) 
sid<-xpathSApply(sdata,'//*/tr/@id') 
sid<-gsub('^tgc','',sid) 
mUrl<-paste0('http://www.soccerbase.com/matches/additional_information.sd?id_game=',sid) 

上記のコードは、追加のデータに必要なURLを取得します。しかし私は彼らのデータを収穫することに関してサイトにチェックするだろう。