私は最終的に作業スクリプトを取得することができました。 わずか1つの小さな問題です。最初のページを除いて、すべてのページをクロールして必要な情報をすべて取得できます。 ここで私のエラー import scrapy.selector
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import Lin
私はウェブページのクロールに使用したコードです。私がスクレイプしたいサイトでは、レイジーローディングが有効になっているので、100個の画像のうち10個しか取得できず、残りはすべてplaceholder.jpgです。 Scrapyのレイジーローディングイメージを扱う最良の方法は何でしょうか? ありがとうございます! class MasseffectSpider(scrapy.Spider):
na
問題があります。私はしばらくの間、関数の実行を停止する必要がありますが、全体として解析の実装を停止する必要はありません。つまり、私は非ブロッキングの一時停止が必要です。 イッツのようになります。 class ScrapySpider(Spider):
name = 'live_function'
def start_requests(self):
yield Re