2016-08-31 11 views
0

requestsライブラリを使用してウェブサイトをクロールしようとしています。しかし、私がアクセスしようとしている特定のウェブサイト(http://www.vi.nl/matchcenter/vandaag.shtml)は、非常に侵入的なcookieステートメントを持っています。リクエストライブラリを使用した侵入型Cookieステートメントのバイパス

私は次のようにウェブサイトにアクセスしようとしています:

from bs4 import BeautifulSoup as soup 
import requests 
website = r"http://www.vi.nl/matchcenter/vandaag.shtml" 
html = requests.get(website, headers={"User-Agent": "Mozilla/5.0"}) 
htmlsoup = soup(html.text, "html.parser") 

これは受け入れるために、大きなボタンでちょうどクッキーの文で構成されたウェブページを返します。ブラウザでこのページにアクセスしようとすると、ボタンを押すとリクエストされたページにリダイレクトされます。 requestsを使用してこれを行うにはどうすればよいですか?

私はmechanize.Browserを使用すると考えましたが、それはかなりラウンドアバウトのやり方です。

答えて

-1

てみ設定:

cookies = dict(BCPermissionLevel='PERSONAL') 
html = requests.get(website, headers={"User-Agent": "Mozilla/5.0"}, cookies=cookies) 

これはクッキーの同意ページをバイパスしますし、ページにstaightあなたを着陸する予定。

注:上記は、Cookieコンセントページで実行されるjavascriptコードを分析するとわかりますが、少し難解ですが難しくありません。同じ種類の問題に再び遭遇した場合は、イベントの処理時に実行されるJavaScriptコードがどのような種類のクッキーであるかを見てください。

+0

コメントしますか? –

-1

私は見つけましたthisこれは、どのように要求を使用してポストにクッキーを送信するか尋ねる質問です。受け入れられた回答によれば、リクエストの最新のビルドによって、簡単な辞書からCookieJarsが構築されます。以下は元の回答に含まれるPOCコードです。

import requests 

cookie = {'enwiki_session': '17ab96bd8ffbe8ca58a78657a918558'} 

r = requests.post('http://wikipedia.org', cookies=cookie) 
+0

これはあなたのために働いていますか? –

+0

POCまたはOPのウェブサイトは? – Koga

関連する問題