私はScrapyでスクラップしたい相対URLの大きなファイルを持っています。このファイルを1行ずつ読み込み、スパイダーに解析要求を作成するコードを記述しました。以下にいくつかのサンプルコードを示します。 クモ: def start_requests(self):
with open(self._file) as infile:
for line in infile:
私はデータベースから1百万の製品IDを読み込み、WebサイトのIDに基づいて製品の詳細をスクラップするScrapyプロジェクトを持っています。 My Spiderは完全に機能しています。 スパイダーのインスタンスを10個ずつ実行し、それぞれに同じ数のプロダクトIDを割り当てたいとします。 私は、のような SELECT COUNT(*) FROM product_idsをそれを行うと、私は私はLIM
私は次の治療のスパイダーを書いたが、私はyieldをもう一度scrapy.Requestに従うべきであるが、最初の要求の後にクロールプロセスを続行していない。 import regex as re
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import Spider
私はPythonには初めてですが、仕事のためにScrapyを使用するために頭を抱えようとしています。 私は現在、このチュートリアルを次のようだ: http://scrapy2.readthedocs.io/en/latest/intro/tutorial.html 私は(チュートリアルから)この部分で問題を抱えてきました: def parse(self, response):
for s