このウェブサイトhttp://a810-bisweb.nyc.gov/bisweb/bispi00.jspは、nyc建物のアプリケーション情報を検索するためのものです。 「アプリケーション検索」セクションには「BISジョブ番号:」があります。求職番号を入力して「実行」をクリックすると、抽出したい情報が新しいページの情報になります。どのように私はこのウェブサイトからの情報をRでスクレイプできますか?
たとえば、データセット https://data.cityofnewyork.us/Housing-Development/DOB-Job-Application-Filings/ic3t-wcy2から、私はジョブ番号220286232を選び、最初のウェブサイトに行き、番号を「BIS Job Number:」に入れてgoをクリックします。今私は新しいページ を得る。必要な情報は「記録情報の申請者」(応募者連絡先情報を含む)です。
私はここに閉じ込められています。各求人番号の下でこれらの申請者情報をどのように抽出できますか?
私はウェブスクレイピングには非常に新しいです。 rvestを使用してページ全体から情報を抽出する方法を学びましたが、私はさまざまなWebサイトでのWebのスクレイピングに慣れていません。
ありがとうございます。
更新:Socrata APIを使用しようとしましたが、申請者の連絡先情報に独自のAPIフィールドがないことがわかりました。情報のAPIフィールドがない場合(ただし、そのページの他の情報にはフィールドがあります)この問題を解決するためにAPIを使用できないということですか?
ありがとうございました!
rvestには軽いフォームを扱う機能がありますが、JavaScriptを最初に実行する必要がある場合は、RSeleniumまたは[splashr](https://github.com/hrbrmstr/splashr)にエスカレートしてソースを取得する必要があります。 HTMLを手に入れたら、rvestを使って解析することができます。 – alistaire
ありがとうございます。私はこれらの2つのパッケージが助けることができるかどうか見てみたいと思っています – zaodao