私はウェブサイトを傷つけるScrapy Spiderを持っており、そのWebサイトにアクセスするにはトークンをリフレッシュする必要があります。リクエストが完了するまで待つ - Python Scrapy
def get_ad(self, response):
temp_dict = AppextItem()
try:
Selector(response).xpath('//div[@class="messagebox"]').extract()[0]
print("Captcha found when scraping ID "+ response.meta['id'] + " LINK: "+response.meta['link'])
self.p_token = ''
return Request(url = url_, callback=self.get_p_token, method = "GET",priority=1, meta = response.meta)
except Exception:
print("Captcha was not found")
他の要求の実行に保つ、キャプチャが発見されたとき、私はトークン更新され、self.p_token
get_p_token
に割り当てるget_p_token
法と呼ばれてきたが、問題があります。
Captchaが見つかった場合は、get_p_token
の実行が終了するまで次のリクエストをしないでください。
私はpriority=1
ですが、それは役に立ちません。
P.S:私は新しいトークンが発見されるまで待ってから、URLの残りの部分をこすりしたい理由があるよう
が実際にそのトークンが各URLに渡されます。
これは私がすでにやっていることです。私は 'get_p_token'メソッド内で同じ' get_ad'メソッドを呼び出しています...フルコードhttp://pastebin.com/X6Q4ZFp2を参照してください – Umair