2017-06-12 5 views
0

をキャプチャするテキストよりも、根本的なHTMLを引っ張っSelectorGadgetとRVestの使用:私はこの1つは、特定のことを、basketballreference.comからのデータの列を引くしようとしています、むしろ私は

使用

http://www.basketball-reference.com/teams/ATL/2016.html

selectorGadget私は、私が必要とするページの部分をハイライトすることができます、そして、それは私にhtml_nodes関数をintにするパラメータを与えます。しかし、私は選手の名前を引き出そうとしていますが、セレクタガジェットの出力をコピーして貼り付けると、名前に含まれるリンクが表示されます。私は、誰かがそれが含まれているリンクではなく、実際のテキストとどのようにマッチさせるかを知っているかどうか疑問に思っていました。たとえば、リストの最初の名前はKent Bazemoreです。私はそれがケント・ベイズモアを返すしたいと思いますが、代わりにそれは根本的なHTMLキャプチャされています。誰もが、私は助けを本当に感謝これをクリーンアップする方法上の任意のアドバイスを持っている場合

{xml_node} 'a href="/players/b/bazemke01.html"' 

を。ありがとうございました。

答えて

0

ノードの取得は、最初の手順です。テキストの抽出は2番目の方法です。この場合はhtml_text()です。

私は、この場合には選手名を取得するためにxpath表現を使用したい:

library(rvest) 

u <- "http://www.basketball-reference.com/teams/ATL/2016.html" 
u %>% 
    read_html() %>% 
    html_nodes(xpath = "//*[@id='roster']/tbody/tr/td[@data-stat='player']/a") %>% 
    html_text() 

[1] "Kent Bazemore" "Tim Hardaway" "Kirk Hinrich" "Justin Holiday" "Al Horford"  
[6] "Kris Humphries" "Kyle Korver"  "Shelvin Mack" "Paul Millsap" "Mike Muscala" 
[11] "Lamar Patterson" "Dennis Schroder" "Mike Scott"  "Thabo Sefolosha" "Tiago Splitter" 
[16] "Edy Tavares"  "Jeff Teague"  
+0

ありがとうございました、これは完全に働きました – gseelig

関連する問題