2017-01-05 14 views
0

「北米ロータリーリグカウントピボットテーブル(2011年2月 - 現在)」というファイルをRに読み込もうとしていますが、ベーカーヒューズは毎週URLを少し変更するので、コードをコピーして自分のコードに貼り付けることはできません。だから私の質問は、ウェブサイトのHTMLコードにアクセスし、RのURLの場所を見つけることは可能ですか?そうでない場合は、手動でURLにコピーして貼り付けるのではなく、URLにアクセスする最良の方法は何か。ウェブサイトのHTMLコードで埋め込みURLを抽出するR

http://phx.corporate-ir.net/phoenix.zhtml?c=79687&p=irol-reportsother

答えて

1

は、ここで私は、ウェブサイトからのすべてのリンクを引くために使用したコードするわずかな修正です。これは、ahrefタグと表示されたリンクからすべてのリンクを取得します。 1つのリンクを見つけるためのより効率的な解決策があるかもしれませんが、十分であるはずです。

require(rvest) 
webpage = read_html(x='http://phx.corporate-ir.net/phoenix.zhtml?c=79687&p=irol-reportsother') 
filelink = 'North America Rotary Rig Count Pivot Table (Feb 2011 - Current)' 

urls = webpage %>% 
     html_nodes('a') %>% 
     html_attr('href') 

labels = webpage %>% 
     html_nodes('a') %>% 
     html_text() %>% 
     trimws() 

links = data.frame(labels=labels, urls=urls) 
links[labels==filelink,] 
                  labels 
287 North America Rotary Rig Count Pivot Table (Feb 2011 - Current) 
                             urls 
287 http://phx.corporate-ir.net/External.File?item=UGFyZW50SUQ9NjU1OTg2fENoaWxkSUQ9MzYyMDEwfFR5cGU9MQ==&t=1 
関連する問題