誰かがWebスクレイプで私を助けることができます願っています。それは昨年の毎日うまく働いた、冬のためにそれをオフにし、ページ上の何かが変更され、もはや働いていない。 リストされている各ステーションの危険度評価コードを抽出する必要があります。昨年、BSは "tr"タグを探していたので、完璧に動作しました。私は困惑している。 http://bcwildfire.ca/hprScripts/DgrCls/index.asp?Region=4Python web scrape failing
ここでBSはそのことをしどこまで私のコードです:
from urllib import urlopen
from HTMLParser import HTMLParser
import string, datetime, sys
from bs4 import BeautifulSoup
# Fire Danger ratings by station start at index 4
class HTMLCleaner(HTMLParser):
container = ""
def handle_data(self, data):
self.container = self.container + "," + data
return self.container
todayChk = datetime.date.today().strftime("%d-%b-%Y")
##FireRegions = {'Prince George': '4', 'Northwest': '3', 'Cariboo': '7', 'Kamloops': '5', 'Southeast': '6'}
FireRegions = {'Prince George': '4'}
Regs = FireRegions.keys()
Reg = 0
while Reg < len(FireRegions):
print Regs[Reg] + " Region"
content = urlopen('http://bcwildfire.ca/hprScripts/DgrCls/index.asp?Region='+FireRegions[Regs[Reg]]).read()
soup = BeautifulSoup(content, 'html.parser')
PGStats = soup.body.find_all("tr")
print PGStats
Reg+=1
ありがとうをあなたが解決策を提供することができた場合
は、ここでサンプル領域のためのサイトです。
※「ページ上の何かが変更されました」* - あなたは*何*を見つけようとしましたか? – jonrsharpe
私はFireRegions.keys()のregの行に沿った何かが、whileループの後に 'FireRegions [Regs [Reg]]'よりも綺麗に見えると感じています。 –
私はBSモジュールではあまり良くありません。私は運がないと必要なデータのテーブルに到達するのに何時間も費やしました。ページは昨年とほとんど同じように見えますが、違うものは見えませんでした。 –