2017-04-27 14 views
1

の前で複数のテーブルをこする:https://prog.nfz.gov.pl/app-jgp/GrupaSzczegoly.aspx?id=2AfRAM1JYDoYzktSMvdOhFiPm2Fnh67qrvest:私はこのURLをこすりしたいタイトル

これは、各地域の医療処置の統計情報を一覧表示し、HTMLは以下の構造を有する:すべてのタイトルと対応するテーブル、16回国の地域。単純化されたHTMLで

:私は(私ができるならば、それは大丈夫だと思う)私は彼らからの1つのまたは2つの値を必要とするテーブル全体をこすりする必要はありません

<div class="tytul">01 - NameOfDistrict_01</div> 

<table> 
... 
<tr>   
<td class="lewa">No. of procedures</td>   
<td class="prawa"><span id="ContentPlaceHolder1_lblbw">950</span> 
</td> 
... 
</table> 


<div class="tytul">02 - NameOfDistrict_02</div> 
<table> 
<tr>   
... 
<tr>   
<td class="lewa">No. of procedures</td>   
<td class="prawa"><span id="ContentPlaceHolder1_lblbw">350</span> 
</td> 
... 
</td> 
</table> 


<div class="tytul">nn - NameOfDistrict_nn</div> 
<table> 
... 
<tr>   
<td class="lewa">No. of procedures</td>   
<td class="prawa"><span id="ContentPlaceHolder1_lblbw">850</span> 
</td> 
... 
</table> 

ので、私はセレクターガジェットを見てみましたページを調べます。私が興味を持っている値の1つは、ノードに存在する手続きの数です。#ContentPlaceHolder1_lblbwそして、タイトルの前には、.tytulというクラスが先行しています。

mydata <- read_html(....) %>% html_nodes(name, "#ContentPlaceHolder1_lblbw") %>% 
    html_text() 

ただし、このプレースホルダは各地域で繰り返されます。私はテーブルの上のタイトルの後に最初のそのようなプレースホルダーを読む必要があります。それに続く各タイトルとテーブルを記録します。私は、これはあなたが探しているものんだと思うどのようにデータフレーム

District   No. of procedures 
    NameOfDistrict_01 950 
    NameOfDistrict_02 350 
............................ 
    NameOfDistrict_nn 850 

答えて

4

に、このようなテーブルを掻き取る

library(rvest) 
page <- read_html("https://prog.nfz.gov.pl/app-jgp/GrupaSzczegoly.aspx?id=2AfRAM1JYDoYzktSMvdOhFiPm2Fnh67q",encoding=-"utf-8") 
data <- page %>% html_nodes(xpath='//*[@id="ContentPlaceHolder1_lblbp"]') %>% html_text() 
titles <- page %>% html_nodes(xpath='//*[@class="tytul"]') %>% html_text() 

myData <- data.frame(title=titles,data=as.numeric(data)) 

head(myData) 
        title data 
1  01 - DOLNOSLASKI 919 
2 02 - KUJAWSKO-POMORSKI 984 
3   03 - LUBELSKI 1476 
4   04 - LUBUSKI 255 
5   05 - LÓDZKI 1225 
6  06 - MALOPOLSKI 1780 
+0

これは簡単ですか?私はループか2つが必要であると思っていた。どうもありがとう。 –

関連する問題