:生のHTML私は例として、このWebページのオフトップ価格をこすります、プログラムを書き込もうとしています
http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults
ファースト
from urllib import urlopen
from BeautifulSoup import BeautifulSoup
import mechanize
webpage = 'http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults'
br = mechanize.Browser()
data = br.open(webpage).get_data()
soup = BeautifulSoup(data)
print soup
ただし、生のHTMLには価格が含まれていません。ブラウザは...それは物事です(ここでの説明は私にも役立つかもしれません)... DOMツリーを構築している間に他の場所から価格を取得します。
機械化はブラウザと同じように動作し、DOMツリーを返すと信じられていました。これは、たとえばChromeの開発者ツールのページのビュー(私がこれについて間違っている場合、その価格情報が格納されているものを取得する方法は?)DOMツリーを見るために機械化するために必要なことはありますか?
私のpythonにDOMツリーを取得することができたら、私が行う必要がある他のすべては、スナップする必要があります。ありがとう!
私は約4年前に美しいスープについて同意したかもしれません... – pguardiario
Ellaborate ..... –
最近、libxml2ベースのパーサは美しいスープを打ち負かすでしょう。 – pguardiario