通常、私はスクレイピングのために動作するスクリプトを書くことができますが、私が取り組んでいるこの研究プロジェクトに参加するテーブルのためにこのサイトを掻き集めるのにいくつかの困難を抱えています。ターゲット状態のURLを入力する前に、ある州でスクリプトが動作していることを確認する予定です。BS4のトラブルスクレイピングサイト
import requests
import bs4 as bs
url = ("http://programs.dsireusa.org/system/program/detail/284")
dsire_get = requests.get(url)
soup = bs.BeautifulSoup(dsire_get.text,'lxml')
table = soup.findAll('div', {'data-ng-controller': 'DetailsPageCtrl'})
print(table)
#I'm printing "Table" just to ensure that the table information I'm looking for is within this sections
私は、サイトがスクレーピングから人々を阻止しようとしているかどうかわからないんだけど、あなたはどのような表出力を見れば、私はつかむために探しているすべての情報は、「& QUOT」の範囲内です。
「lxml」ではなく「html.parser」を試しましたか? – martinB0103
あなたはページのどの部分をしたいですか? 「プログラムの概要」の部分は?または、当局は「当局」に向かいましたか?または、他の何か? –
@BillBell私は "Program Overview" – vlepore