scrapy-spider

-1熱

1答えて

私は、warframe.marketの非常に単純なWebスクレーパーを作成しようとしているスクラップチュートリアルに従っています。私は学校から約1年のコーディング経験を持っていますが、Pythonの経験はありません。私は単にウェブサイトからアイテムの価格を取得したい。私はページをこすりするために、次を使用： scrapy shell "https://warframe.market/items/h

0熱

1答えて

非常に単純なScrapy + Splashプロジェクト

私は非常に簡単なScrapy + Splashプロジェクトを開発して、JavaScriptのウェブサイトをクロールします。これは私のコードです： splashtest.py： import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_

-1熱

1答えて

scarrapyを使ってangularjsのウェブサイトをクロールするには？

bookmakersのすべてのイベントのすべてのオッズを取得する方法が必要私はScrapy + Splashを使用して、サイトの最初のjavascriptで読み込まれたコンテンツを取得しています。しかし、他のすべてのオッズを得るには、 "Spagna-LigaSpagnola"、 "Italia-> Serie A"などをクリックする必要があります。どうすればいいですか？

3熱

1答えて

CrawlerProcessがCrawlSpiderでデータを保存しない

次のコードが実行され、エラーなしでファイルが作成されます。ただし、jsonファイルには保存されません。データのダウンロードを妨害していたオートスロットルをオフにしましたが、問題は解決しませんでした。 Scrapy == 1.4.0 class MySpider(CrawlSpider): name = "spidy" allowed_domains = ["cnn.com"]

0熱

1答えて

Scrapy Link Extractorsはベースタグをサポートしていません

HTMLにbaseタグがある場合、相対リンクは異なる方法でレンダリングされます。我々はそれを自動的に処理するために、治療でLink Extractors classが期待されました。しかし、それは起こっていないようです。この問題を解決するための標準的な治療方法は何でしょうか？

0熱

2答えて

Scrapy - メソッドの本体を閉じません。

closeメソッドが実行されていない理由を理解できません。私は2つのURLのリストを処理しなければならない。 1つのリストを最初に処理してエクスポートし、2番目のリストを処理する必要があります。問題はcloseメソッドが呼び出されただけです（ブレークポイントはdefで停止しますが実行されません）。なぜなのかご存知ですか？ # coding=utf-8 from bot.items import

0熱

1答えて

Scrapy：クロールの確認と停止の方法

私はページのリストをクロールしています。各ページには、解析する必要があるURLのリストがあります。私はこれらの最初のページをループしていますが、いつクロールをやめなければならないのかは分かりません。ない http://www.cmjornal.pt/opiniao/colunistas/acacio-pereira/MoreContent?firstContent=183 ではなく、この1すでに空

0熱

1答えて

スケジューリング予定時刻にスパイダーをクロールする

スケジュールされた時間にスパイダーを複数回クロールしたい。次のクロール時間は、最初のクロールが完了した後に決定されます。ここではそれを行うに私のコードですが、コードは最初crawler.start（）ラインでブロックされます。 spidersQ = collections.OrderedDict() class QuotesSpider(scrapy.Spider): name =

0熱

1答えて

はScrapy（パイソン）で構文エラーを与える - XPathの

は、私は、ユーザー名などのいくつかの詳細を抽出するためにScrapyクローラを使用しています、upvotes、参加日などを、私は、各ユーザーのWebページから内容を抽出するためのXPathを使用しています。コード： import scrapy from scrapy.selector import HtmlXPathSelector from scrapy.http import Requ