this topicに続いて、pems.dot.ca.govからトラフィックデータをダウンロードしようとしています。submitでsubmitしたオブジェクトからhtmlコンテンツを抽出する方法
rm(list=ls())
library(rvest)
library(xml2)
library(httr)
url <- "http://pems.dot.ca.gov/?report_form=1&dnode=tmgs&content=tmg_volumes&tab=tmg_vol_ts&export=&tmg_station_id=74250&s_time_id=1369094400&s_time_id_f=05%2F21%2F2013&e_time_id=1371772740&e_time_id_f=06%2F20%2F2013&tod=all&tod_from=0&tod_to=0&dow_5=on&dow_6=on&tmg_sub_id=all&q=obs_flow&gn=hour&html.x=34&html.y=8"
pgsession <- html_session(url)
pgform <-html_form(pgsession)[[1]]
filled_form <- set_values(pgform,
'username' = 'omitted',
'password' = 'omitted')
resp = submit_form(pgsession, filled_form)
resp_2 = resp$response
cont = resp_2$content
私は、これらの項目のclass()
をチェックし、RESPが「セッション」で、resp_2は「応答」であり、そして続きは「生」であることがわかりました。私の質問は:どのように正しく私はこのページから必要な実際のデータを選ぶためにXPathを進めることができるようにHTMLコンテンツを正しく抽出することができますか?私の直感は、レスポンスであるresp_2を解析する必要がありますが、私はそれを動作させることができません。あなたの助けは非常に高く評価されます!
Selector Gadgetを見ましたか?私はそれを抽出したいWebページの特定の部分を見つけるのに便利です。 http://selectorgadget.com/。 'rvest'内の' html_nodes'と 'html_text'でうまく動作します – Warner
ガジェットを調べたところ、すばらしかったです。しかし、私の質問は、htmlから何かを選択する方法ではなく、それは応答や生のHTMLへの変換方法です。とにかくあなたの答えをありがとう! – user3768495
オープニング画面を通過するには、ユーザー名とパスワードが必要です。上記のコードコードでは、有効な組み合わせではない「省略」が使用されています。あなたが興味を持っている実際のページの例を投稿することができれば、より役に立ちそうです。 – Dave2e