0
私は国情報センターからRCurl
経由でpdfをダウンロードしようとしていますが、何か問題がありました。この例では、URLの場合、「PDF」でなければならない「Report Format」を除き、デフォルト設定に対応するpdfが必要です。次のスクリプトを実行すると、他のボタン( "Parent of s ..."/HMDA - デフォルトではありません)の選択に関連するファイルが保存されます。これらの入力要素をparams
に追加しようとしましたが、何も変更されませんでした。誰かが問題を特定するのを手伝ってもらえますか?ありがとう。RCurl/postFormに正しいパラメータを渡す
library(RCurl)
curl = getCurlHandle()
curlSetOpt(cookiejar = 'cookies.txt', curl = curl)
params = list(rbRptFormatPDF = 'rbRptFormatPDF')
url = 'https://www.ffiec.gov/nicpubweb/nicweb/OrgHierarchySearchForm.aspx?parID_RSSD=2162966&parDT_END=99991231'
html = getURL(url, curl = curl)
viewstate = sub('.*id="__VIEWSTATE" value="([0-9a-zA-Z+/=]*).*', '\\1', html)
event = sub('.*id="__EVENTVALIDATION" value="([0-9a-zA-Z+/=]*).*', '\\1', html)
params[['__VIEWSTATE']] = viewstate
params[['__EVENTVALIDATION']] = event
params[['btnSubmit']] = 'Submit'
result = postForm(url, .params=params, curl=curl, style='POST')
writeBin(as.vector(result), 'test.pdf')
はい、これは動作します - ありがとうございます!私は実際には、すべてのパラメータを明示的に指定する必要があると思います。たとえデフォルトとして表示されていても、 – sirallen
です。lbTopHoldersとlbHMDAyearは不要です。 – sirallen
隠されたAPIは本当に恐ろしいです;-) – hrbrmstr