私は別のサイトからいくつかのコンテンツを取り壊そうとしています。なぜBeautifulSoupがこの出力を生成しているのかわかりません。マッチの中に空白スペースしか見つけられませんが、実際のHTMLには大量のマークアップが含まれています。これが私の愚かなことであれば謝ります。私はPythonの初心者です。あなたが続く場合は、sitesDivを見ることができるURLをマークアップの多くが含まれていBeautifulSoup Parser Confusion - HTML
import sys
import os
import mechanize
import re
from BeautifulSoup import BeautifulSoup
def scrape_trails(BASE_URL, data):
#Get the trail names
soup = BeautifulSoup(data)
sitesDiv = soup.findAll("div", attrs={"id" : "sitesDiv"})
print sitesDiv
def main():
BASE_URL = "http://www.dnr.state.mn.us/skiing/skipass/list.html"
br = mechanize.Browser()
data = br.open(BASE_URL).get_data()
links = scrape_trails(BASE_URL, data)
if __name__ == '__main__':
main()
:
は、ここに私のコードです。私は何かが間違っているのか、これがスクリプトが処理できない不正な形式のマークアップなのかどうかはわかりません。ありがとう!
<div id="sitesDiv"> </div>
ページがロードされた後のdivを埋めページのスクリプトがあります: