scrapy-spider

2熱

1答えて

start_requestsメソッドが終了する前にScrapyがコールバックを実行する方法を教えてください。

私はScrapyでスクラップしたい相対URLの大きなファイルを持っています。このファイルを1行ずつ読み込み、スパイダーに解析要求を作成するコードを記述しました。以下にいくつかのサンプルコードを示します。クモ： def start_requests(self): with open(self._file) as infile: for line in infile:

3熱

1答えて

リクエストが完了するまで待つ - Python Scrapy

私はウェブサイトを傷つけるScrapy Spiderを持っており、そのWebサイトにアクセスするにはトークンをリフレッシュする必要があります。 def get_ad(self, response): temp_dict = AppextItem() try: Selector(response).xpath('//div[@class="messagebox"]')

-1熱

1答えて

治療の初心者は例外を受け取ります

私は助けが必要です。特定のWebサイト（underminejournal）のクローラを作成したかったのです。私はコンソールの出力を作成するサイトからこのデータを取得したい、私は主にコンソールで動作し、頻繁にそれを切り替えるしたくないです。もう一つのポイントは、私はデータベース（SQLなどのデータをプッシュしても問題ありません）です。 # -*- coding: utf-8 -*- import

1熱

1答えて

Scrapy Spiderの複数のプロセスを実行する

私はデータベースから1百万の製品IDを読み込み、WebサイトのIDに基づいて製品の詳細をスクラップするScrapyプロジェクトを持っています。 My Spiderは完全に機能しています。スパイダーのインスタンスを10個ずつ実行し、それぞれに同じ数のプロダクトIDを割り当てたいとします。私は、のような SELECT COUNT(*) FROM product_idsをそれを行うと、私は私はLIM

1熱

1答えて

治療の収量がうまくいかない

私は次の治療のスパイダーを書いたが、私はyieldをもう一度scrapy.Requestに従うべきであるが、最初の要求の後にクロールプロセスを続行していない。 import regex as re import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import Spider

0熱

1答えて

TypeError： 'HtmlResponse'オブジェクトは反復可能ではありません

私はPythonには初めてですが、仕事のためにScrapyを使用するために頭を抱えようとしています。私は現在、このチュートリアルを次のようだ： http://scrapy2.readthedocs.io/en/latest/intro/tutorial.html 私は（チュートリアルから）この部分で問題を抱えてきました： def parse(self, response): for s

0熱

1答えて

新しいプロジェクトを開始する治療

私は、Windows 7システムにpython 2.7.12バージョンをインストールしました。 pywin32とVisual C++もインストールしました。 pip --versionコマンドを入力しても出力が生成されない場合、カーソルは次の行に移動して点滅します。しかし、私がコマンドpython -m pip --versionを使用すると、pipのバージョンが表示されます。また、scrapy

0熱

1答えて

ページ上の2つのテーブルで適切なデータが得られない

私は最近、スクラップを使用してデータをスクラブしていますが、最近スクラップを開始したページの1つに2つのテーブルがあります。私はテーブルを別々に掻き分けたいと思っています。私は様々なパス（以下に示す）を使用してみました。そして、両方のテーブルを擦り合わせるか、空のアイテム辞書か、パスを見つけることができないかのいずれかになります。サイトはこちら： http://www.faa.gov/data_r