scrapy-spider

    -1

    1答えて

    私は、warframe.marketの非常に単純なWebスクレーパーを作成しようとしているスクラップチュートリアルに従っています。私は学校から約1年のコーディング経験を持っていますが、Pythonの経験はありません。私は単にウェブサイトからアイテムの価格を取得したい。私はページをこすりするために、次を使用: scrapy shell "https://warframe.market/items/h

    0

    1答えて

    私は非常に簡単なScrapy + Splashプロジェクトを開発して、JavaScriptのウェブサイトをクロールします。これは私のコードです: splashtest.py: import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_

    -1

    1答えて

    bookmakersのすべてのイベントのすべてのオッズを取得する方法が必要 私はScrapy + Splashを使用して、サイトの最初のjavascriptで読み込まれたコンテンツを取得しています。しかし、他のすべてのオッズを得るには、 "Spagna-LigaSpagnola"、 "Italia-> Serie A"などをクリックする必要があります。 どうすればいいですか?

    3

    1答えて

    次のコードが実行され、エラーなしでファイルが作成されます。ただし、jsonファイルには保存されません。 データのダウンロードを妨害していたオートスロットルをオフにしましたが、問題は解決しませんでした。 Scrapy == 1.4.0 class MySpider(CrawlSpider): name = "spidy" allowed_domains = ["cnn.com"]

    0

    1答えて

    HTMLにbaseタグがある場合、相対リンクは異なる方法でレンダリングされます。我々はそれを自動的に処理するために、治療でLink Extractors classが期待されました。しかし、それは起こっていないようです。 この問題を解決するための標準的な治療方法は何でしょうか?

    0

    2答えて

    closeメソッドが実行されていない理由を理解できません。私は2つのURLのリストを処理しなければならない。 1つのリストを最初に処理してエクスポートし、2番目のリストを処理する必要があります。 問題はcloseメソッドが呼び出されただけです(ブレークポイントはdefで停止しますが実行されません)。なぜなのかご存知ですか? # coding=utf-8 from bot.items import

    0

    1答えて

    私はページのリストをクロールしています。各ページには、解析する必要があるURLのリストがあります。私はこれらの最初のページをループしていますが、いつクロールをやめなければならないのかは分かりません。ない http://www.cmjornal.pt/opiniao/colunistas/acacio-pereira/MoreContent?firstContent=183 ではなく、この1すでに空

    0

    1答えて

    スケジュールされた時間にスパイダーを複数回クロールしたい。次のクロール時間は、最初のクロールが完了した後に決定されます。ここではそれを行うに私のコードですが、コードは最初crawler.start()ラインでブロックされます。 spidersQ = collections.OrderedDict() class QuotesSpider(scrapy.Spider): name =

    0

    1答えて

    は、私は、ユーザー名などのいくつかの詳細を抽出するためにScrapyクローラを使用しています、upvotes、参加日など を、私は、各ユーザーのWebページから内容を抽出するためのXPathを使用しています。 コード: import scrapy from scrapy.selector import HtmlXPathSelector from scrapy.http import Requ