rutとruterのデータスクラップ、見つけたCSSセレクタ

はい、私は同様の質問があることを知っています、私は答えを読んで、私が実装できるものを試しました。だから、質問がばかげている場合は、事前にお詫び申し上げます:)rutとruterのデータスクラップ、見つけたCSSセレクタ

私は企業のリストについては、ロイターから会社の役員の年齢を削っています。リンク：http://www.reuters.com/finance/stocks/companyOfficers?symbol=MSFT

適切なCSSセレクタを見つけるためにrvestライブラリとselectorgadgetを使用しています。

library(rvest) 
d = read_html("http://www.reuters.com/finance/stocks/companyOfficers?symbol=GAZP.RTS") 

d %>% html_nodes("#companyNews:nth-child(1) td:nth-child(2)") %>% html_text()

結果は私が間違っているCSSセレクタを持っていると思う

character(0)

です：ここではコードです。テーブルを選択する方法を教えていただけますか？あなたがデータを取得するためにhtml_sessionを使用する必要が

出典

2016-12-04 Petr

を_」あなたは、削除、変更、転送、こすり、コピー、販売、配布、再送信、派生物を作成するか、またはそうでなければ利用できるようにしない場合があります私たちの事前の書面による同意なしに第三者に提供するコンテンツ " - あなたが別途書類を提出することができない限り、あなた自身の啓蒙のためにこれをやっていることはまずありません。 – hrbrmstr

私は自分の論文（ボードエクスペリエンス〜企業パフォーマンス）のためにこれをやっています。したがって、私は第三者にコンテンツを提供することはできません。それでも、この点に感謝します。私は、この目的のために集計されたデータを使用できるかどうか尋ねます。私は自分の組織が自分のサービスに加入しているので、自分自身でこのデータを使用できるとも信じています。 – Petr

が正しくロードさ：

library(rvest) 

url <- 'http://www.reuters.com/finance/stocks/companyOfficers?symbol=MSFT.O' 
site <- html_session(url) %>% read_html() 

site %>% html_node('#companyNews:first-child table') %>% html_table() 

##      Name Age Since         Current Position 
## 1   John Thompson 66 2014     Independent Chairman of the Board 
## 2   Bradford Smith 57 2015     President, Chief Legal Officer 
## 3   Satya Nadella 48 2014     Chief Executive Officer, Director 
## 4   William Gates 60 2014   Founder and Technology Advisor, Director 
## 5    Amy Hood 43 2013 Chief Financial Officer, Executive Vice President 
## 6 Christopher Capossela 45 2014 Executive Vice President, Chief Marketing Officer 
## 7   Kathleen Hogan 49 2014  Executive Vice President - Human Resources 
## 8  Margaret Johnson 54 2014 Executive Vice President - Business Development 
## 9   Ifeanyi Amah NA 2016       Chief Technology Officer 
## 10   Keith Lorizio NA 2016    Vice President - North America Sales 
## 11  Teri List-Stoll 53 2014        Independent Director 
## 12  G. Mason Morfit 40 2014        Independent Director 
## 13   Charles Noski 63 2003        Independent Director 
## 14   Helmut Panke 69 2003        Independent Director 
## 15  Charles Scharf 50 2014        Independent Director 
## 16   John Stanton 60 2014        Independent Director 
## 17    Chris Suh NA NA    General Manager - Investor Relations

出典

2016-12-04 18:40:23 alistaire

ありがとうございました！ CSSセレクタが '#companyNews：first-child table'でなければならないことはどうでしたか？ – Petr

selectorgadgetはまともな推測を行いますが、最適なセレクタを返すことはめったにないので、HTMLを見ていくつかのオプションを試しました。テーブルには一意のIDがないので、セレクタは相対的でなければならず、 'div＃companyNews'には2つのテーブルがあるので、'：first-child'をサブセットとして使用しました。 'rvest'はあなたに知っておく必要があることすべてを教える[短い、楽しいチュートリアル]（http://flukeout.github.io/）にリンクしています。 – alistaire

rutとruterのデータスクラップ、見つけたCSSセレクタ

答えて

関連する問題