scrapy-spider

0熱

1答えて

フォーマットのデータをクロールしようとしました。 1）CARTを追加プロセスはそれぞれ、すべてのためにない上記SO 2）閲覧CART 3）を取り外し、それが完全に作動が、マルチカラー製品のためのものである単色製品のCART 、Scrapyは、マルチスレッドを取り製品。私はscrapyは次のように要求したい： 1）製品A - カートを見る製品A - - CART 2を削除）製品B - CA

0熱

1答えて

Python Scrapy：レスポンスボディにはリダイレクト以外の何も表示されません

Googleデベロッパーコンソールアカウントをスクレーピングするスクレーパーを作成しようとしています。スパイダーを実行すると、正常にログインしてログが正常に出力されているようです。他のページをリクエストしてresponse.bodyをファイルに書き込もうとしたとき。これは、次の（response.htmlを）出ています： <!DOCTYPE html><html><head><title>Redi

-1熱

1答えて

最初のスパイダーの後にforループが壊れないようにcmdlineを作成するには？

をscrapyにすると、forループでcmdline.execute()関数を実行する方法はありますか？以下はその例です。実行しようとすると、スクリプトはの最初の反復の後に停止し、INFO: Closing spider (finished)を示します。スクリプトを壊さずにループに戻すにはどうすればよいですか？ Execute.py： from scrapy import cmdline li

1熱

1答えて

Scrapy spider close prematurely

私はデータベースに保存した数千のURLリンクをスクラップするようにプログラムしました。私はスパイダーを呼び出すためにスパイダーをプログラムしました.Requests関数はデータベースからURLを渡すようになっています。しかし、1-2ページを削った後、スパイダーは（誤差なしで）早まって終了します。なぜこのようなことが起こったのか分かりません。コード： # -*- coding: utf-8 -*-

0熱

2答えて

なぜこのURLからデータを取得できないのですか？

このページ上のいくつかのデータがあります。 $のscrapyシェル「https://partsouq.com/en/catalog/genuine/unit?c=Toyota&ssd=%24HQwdcgcAAwFNa3YjVR92aVB7C10ZDko%24&vid=4463&cid=&uid=2535&q=」は、ページの左手側の数字は内容のテーブル表示され、それらのいずれかをクリックした後、そ

0熱

1答えて

このページからのリンクを取得するには？

がこのページの一部のデータがあります。 $ scrapy shell 'https://www.catalogs.ssg.asia/toyota/?lang=en#bWFya2V0PT1nZW5lcmFsfHxzdD09MjB8fHN0cz09eyIxMCI6IlJlZ2lvbiIsIjIwIjoiTWlkZGxlIEVhc3QifQ%3D%3D' 私はこの表からURLをこすりすることができ

0熱

1答えて

Scrapyのrequest.metaが誤っ

私はmeta属性にクロールされたパスを記録しようとしている更新されます import scrapy from scrapy.linkextractors import LinkExtractor class ExampleSpider(scrapy.Spider): name = "example" allowed_domains = ["www.iana.org"]

0熱

1答えて

リクエストパイロットを使用してペイロードを送信

私は、URLが以下のようなペイロードパラメータを持つ投稿要求を見つけることができるウェブサイトを掻き集めることを試みています。私はペイロードの辞書にそれをいかにしてformdataで送るかわからない。以下のコードはすべて、ペイロードを使用したリクエストの下でフォームデータにどのように送信しますか？ ------WebKitFormBoundaryj9yKl83Zu7ki71zE Cont

0熱

1答えて

LinuxサーバのScrapy KeyErrorはWindowsではありません

My Scrapyは、ローカルマシンのWindowsでうまく動作します。それから私はAWS Linuxサーバー上で実行しようとしましたが、私はこれを持っていました Traceback (most recent call last): File "runOCBC.py", line 12, in <module> spider_name).split()) File "

1熱

2答えて

CrawlerProcessでカスタム設定をスクレイピーで渡す方法はありますか？

私は2つのCrawlerProcessを持っています。それぞれは異なるスパイダーを呼び出しています。 storage_settings = {'FEED_FORMAT': 'csv', 'FEED_URI': 'foo.csv'} process = CrawlerProcess(get_project_settings()) process.crawl('ABC', crawl_links=