scrapy-spider

    2

    1答えて

    私はScrapyでスクラップしたい相対URLの大きなファイルを持っています。このファイルを1行ずつ読み込み、スパイダーに解析要求を作成するコードを記述しました。以下にいくつかのサンプルコードを示します。 クモ: def start_requests(self): with open(self._file) as infile: for line in infile:

    3

    1答えて

    私はウェブサイトを傷つけるScrapy Spiderを持っており、そのWebサイトにアクセスするにはトークンをリフレッシュする必要があります。 def get_ad(self, response): temp_dict = AppextItem() try: Selector(response).xpath('//div[@class="messagebox"]')

    -1

    1答えて

    私は助けが必要です。特定のWebサイト(underminejournal)のクローラを作成したかったのです。私はコンソールの出力を作成するサイトからこのデータを取得したい、私は主にコンソールで動作し、頻繁にそれを切り替えるしたくないです。もう一つのポイントは、私はデータベース(SQLなどのデータをプッシュしても問題ありません)です。 # -*- coding: utf-8 -*- import

    1

    1答えて

    私はデータベースから1百万の製品IDを読み込み、WebサイトのIDに基づいて製品の詳細をスクラップするScrapyプロジェクトを持っています。 My Spiderは完全に機能しています。 スパイダーのインスタンスを10個ずつ実行し、それぞれに同じ数のプロダクトIDを割り当てたいとします。 私は、のような SELECT COUNT(*) FROM product_idsをそれを行うと、私は私はLIM

    1

    1答えて

    私は次の治療のスパイダーを書いたが、私はyieldをもう一度scrapy.Requestに従うべきであるが、最初の要求の後にクロールプロセスを続行していない。 import regex as re import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import Spider

    0

    1答えて

    私はPythonには初めてですが、仕事のためにScrapyを使用するために頭を抱えようとしています。 私は現在、このチュートリアルを次のようだ: http://scrapy2.readthedocs.io/en/latest/intro/tutorial.html 私は(チュートリアルから)この部分で問題を抱えてきました: def parse(self, response): for s

    0

    1答えて

    私は、Windows 7システムにpython 2.7.12バージョンをインストールしました。 pywin32とVisual C++もインストールしました。 pip --versionコマンドを入力しても出力が生成されない場合、カーソルは次の行に移動して点滅します。 しかし、私がコマンドpython -m pip --versionを使用すると、pipのバージョンが表示されます。また、scrapy

    0

    1答えて

    私は最近、スクラップを使用してデータをスクラブしていますが、最近スクラップを開始したページの1つに2つのテーブルがあります。私はテーブルを別々に掻き分けたいと思っています。私は様々なパス(以下に示す)を使用してみました。そして、両方のテーブルを擦り合わせるか、空のアイテム辞書か、パスを見つけることができないかのいずれかになります。サイトはこちら: http://www.faa.gov/data_r