2016-04-26 12 views
1

私はBeautifulSoupとRequestを使用してallrecipesユーザーデータをスクレイプします。Requests.contentがChromeの検査要素と一致しません

私はスープと応答は、HTMLでいっぱいですが、私は次のコード

URL = 'http://allrecipes.com/cook/2010/reviews/' 
response = requests.get(URL).content 
soup = BeautifulSoup(response, 'html.parser') 
X = soup.find_all('article', class_ = "profile-review-card" ) 

を使用するときに私が欲しいデータがしかし

<article class="profile-review-card"> 

内に含まれていることがわかりHTMLコードを検査、X空です。私は見てきましたが、inspect要素とrequests.get(URL).contentとの間に何らかの不一致があります。何が起こっていますか?それはアヤックス/ JavaScriptを使用してロードされているためです

What Chrome inspect shows me

答えて

3

。要求ライブラリはそれを処理しません、あなたはこれらのスクリプトを実行し、DOMを得ることができる何かを使用する必要があります。いろいろな選択肢がありますが、私はあなたを始めさせるためにいくつか挙げます。

+1

おかげヘッダ、セレンは偉大な​​ワークアウトされています。将来、Ajax/javascriptでウェブサイトがロードされていることをどのように認識できますか? –

-1

あなたはユーザーエージェントを追加してみなければならない答えを

URL = 'http://allrecipes.com/cook/2010/reviews/' 
headers = {'user-agent', 'Mozilla/5.0'} 
response = requests.get(URL,headers=headers).content 
関連する問題