2017-09-07 26 views
1

http://njdep.rutgers.edu/continuous/data.phpからデータセットをスクレイピングするのは興味深いです。そのサイトに含まれているデータを検索します。フォームからcsvファイルを生成するサイトからのWebスクレイピング(http://njdep.rutgers.edu/continuous/data.php)

サイトのフォームに入力すると、.csvファイルが生成されます。最古の日付から最新の状態までのすべてのデータがどこに格納されているかを調べ、Rパッケージまたはpythonパッケージを使用してそれを抽出する方法はありますか?

+0

データベースに保存されています。私は公共のデータベースを私と共有するために多くの政府機関に依頼しました(つまり、インターフェースを削ってはいませんが、完全なDBダンプ)。彼らの多くは空白のDVDまたは2の代わりに喜んで提供されています。 –

答えて

1

ブラウザでは、右クリックしてページを調べることができます。ダウンロードボタンをクリックすると、ネットワークタブに基になる残りのAPIが表示されます。あなたはデータのさまざまなバリエーションを取得するためのURLを変更する方法についてのアイデアを得ることができ、様々な形式のパラメータを変更した場合

http://njdep.rutgers.edu/continuous/data/downloadData.php?affiliation=NJDEP+-+Marine+Water+Monitoring&project=-1&huc14=-1&county=-1&munis=-1&station_type=-1&station=-1&start_date=&end_date=&params= 

:それは次のようになります。次に、Pythonでデータを取得するリクエストのようなパッケージを使用することができます。

import requests 

url = 'your_modified_url' 
res = requests.get(url) 
res.raise_for_status() 
data = res.content 
+0

WOW!手伝ってくれてどうもありがとう!それは美しく働いた!リクエストパッケージのように動作するRのパッケージについて知っていますか? –

+0

Rにも同じようなパッケージがあり、リクエストとも呼ばれているようです。 https://cran.r-project.org/web/packages/request/request.pdf –

+0

彼らはRで動作するカールライブラリですが、おそらく多くのオプション。 – Meow

関連する問題