scrapy-spider

    0

    1答えて

    フォーマットのデータをクロールしようとしました。 1)CARTを追加 プロセスはそれぞれ、すべてのためにない上記SO 2)閲覧CART 3)を取り外し、それが完全に作動が、マルチカラー製品のためのものである単色製品のCART 、Scrapyは、マルチスレッドを取り製品。私はscrapyは次のように要求したい : 1) 製品A - カートを見る 製品A - - CART 2を削除) 製品B - CA

    0

    1答えて

    Googleデベロッパーコンソールアカウントをスクレーピングするスクレーパーを作成しようとしています。スパイダーを実行すると、正常にログインしてログが正常に出力されているようです。他のページをリクエストしてresponse.bodyをファイルに書き込もうとしたとき。これは、次の(response.htmlを)出ています: <!DOCTYPE html><html><head><title>Redi

    -1

    1答えて

    をscrapyにすると、forループでcmdline.execute()関数を実行する方法はありますか?以下はその例です。実行しようとすると、スクリプトはの最初の反復の後に停止し、INFO: Closing spider (finished)を示します。スクリプトを壊さずにループに戻すにはどうすればよいですか? Execute.py: from scrapy import cmdline li

    1

    1答えて

    私はデータベースに保存した数千のURLリンクをスクラップするようにプログラムしました。私はスパイダーを呼び出すためにスパイダーをプログラムしました.Requests関数はデータベースからURLを渡すようになっています。しかし、1-2ページを削った後、スパイダーは(誤差なしで)早まって終了します。なぜこのようなことが起こったのか分かりません。 コード: # -*- coding: utf-8 -*-

    0

    2答えて

    このページ上のいくつかのデータがあります。 $のscrapyシェル「https://partsouq.com/en/catalog/genuine/unit?c=Toyota&ssd=%24HQwdcgcAAwFNa3YjVR92aVB7C10ZDko%24&vid=4463&cid=&uid=2535&q=」 は、ページの左手側の数字は内容のテーブル表示され、それらのいずれかをクリックした後、そ

    0

    1答えて

    が このページの一部のデータがあります。 $ scrapy shell 'https://www.catalogs.ssg.asia/toyota/?lang=en#bWFya2V0PT1nZW5lcmFsfHxzdD09MjB8fHN0cz09eyIxMCI6IlJlZ2lvbiIsIjIwIjoiTWlkZGxlIEVhc3QifQ%3D%3D' 私はこの表からURLをこすりすることができ

    0

    1答えて

    私はmeta属性にクロールされたパスを記録しようとしている更新されます import scrapy from scrapy.linkextractors import LinkExtractor class ExampleSpider(scrapy.Spider): name = "example" allowed_domains = ["www.iana.org"]

    0

    1答えて

    私は、URLが以下のようなペイロードパラメータを持つ投稿要求を見つけることができるウェブサイトを掻き集めることを試みています。私はペイロードの辞書にそれをいかにしてformdataで送るかわからない。以下のコードはすべて、ペイロードを使用したリクエストの下でフォームデータにどのように送信しますか? ------WebKitFormBoundaryj9yKl83Zu7ki71zE Cont

    0

    1答えて

    My Scrapyは、ローカルマシンのWindowsでうまく動作します。それから私はAWS Linuxサーバー上で実行しようとしましたが、私はこれを持っていました Traceback (most recent call last): File "runOCBC.py", line 12, in <module> spider_name).split()) File "

    1

    2答えて

    私は2つのCrawlerProcessを持っています。それぞれは異なるスパイダーを呼び出しています。 storage_settings = {'FEED_FORMAT': 'csv', 'FEED_URI': 'foo.csv'} process = CrawlerProcess(get_project_settings()) process.crawl('ABC', crawl_links=