scrapy-spider

    -1

    1答えて

    私はこのリンク(https://github.com/eloyz/reddit/blob/master/reddit/spiders/pic.py)のコードを使用していますが、どういうわけかページ区切りページにアクセスできません。 私はscrapy 1.3.0

    0

    1答えて

    意向/期待される動作 戻るページからのリンクのテキスト:CSV形式でシェルでhttps://www.bezrealitky.cz/vypis/nabidka-prodej/byt/praha 。私はitem.py itemloaderでキーが定義されているにもかかわらず、 'タイトル': エラーは、私はKeyError例外を取得します。 フルトレースバック Traceback (most rece

    2

    1答えて

    アイテムローダーで正規表現を使用したいと思いますが、方法がわかりません。 Loader.add_xpath('item', '*xpath*').re(*expression*) また中MapComposeで試してみました:これは以下のように response.xpath('*xpath*').re(*expression*) しかし、動作しないアイテムローダーで、試してみました:これは以

    0

    1答えて

    私は、スクラピーと全く同じ方法で、スクラップスプラッシュを使用してログインしようとしています。 私はドキュメントDocを見てきましたが、 "SplashFormRequest.from_responseもサポートされていて、治療のドキュメントに記載されているように機能します" しかし、スプラッシュのドキュメントに記載されているように、結果。私は間違っているの? コード:設定に追加 import s

    0

    1答えて

    アイテムローダーに2つのアイテムをロードします。これはresponse.metaコマンドでインスタンス化されます。どういうわけか、標準: loader.add_xpath('item', 'xpath') が動作していない(つまり、値が保存されていないか、書かれている、それはアイテムの作成されなかったようである)が、まったく同じ表現を持つ: response.xpath('xpath) lo

    0

    1答えて

    スパイダーのinit関数の後でScrapy設定をオーバーライドすることはできますか? たとえば、dbから設定を取得したい場合は、クエリパラメータを引数としてcmdlineから渡します。 def __init__(self, spider_id, **kwargs): self.spider_id = spider_id self.set_params(spider_id)

    0

    3答えて

    私はこの非常に短いスパイダーを書いて、米国のニュースリンクにアクセスし、そこに掲載されている大学の名前を取得しました。 #!/usr/bin/python # -*- coding: utf-8 -*- import scrapy class CollegesSpider(scrapy.Spider): name = "colleges" start_urls = [

    2

    1答えて

    私は&スクレーピングをクロールの分野での初心者です、私は始めるためにオンライン私が得たこのコードを使用して試してみました: items.py import scrapy class IkeaItem(scrapy.Item): name = scrapy.Field() link = scrapy.Field() spider.py import scrapy fro

    0

    1答えて

    私はscrapを使用してespncricnfoウェブサイトから解説を破棄し、出力(items.csv)を空白にしました。これらは私のファイルです。 cricinfo.py(スパイダーファイル) from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from crictest.item

    0

    2答えて

    がdownload_delayとConcurrent_requestsためscrapyのドキュメントを見て期待通りに動作していない、私が理解することです:私は「CONCURRENT_REQUESTS」を持つ場合:1秒の25とdownload_delayを、それがかつてscrapyは25ページを要求していることを意味し、scrapyすべての25がダウンロードされるのを待ってから1秒待ってから、再度2