scrapy-spider

    0

    1答えて

    スクラップの画像パイプラインを使用して画像を取得する際に問題があります。エラーレポートから、私はScrapyに正しいimage_urlsを供給していると思います。しかし、Scrapyはそれらから画像をダウンロードするのではなく、次のエラーを返します。ValueError:要求に含まれていないスキームurl:h。 これは画像パイプライン機能を初めて使用したので、私は簡単な間違いをしていると思われます

    -1

    1答えて

    私は最終的に作業スクリプトを取得することができました。 わずか1つの小さな問題です。最初のページを除いて、すべてのページをクロールして必要な情報をすべて取得できます。 ここで私のエラー import scrapy.selector from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import Lin

    2

    1答えて

    私は自分のMacにpipをインストールし、それを正常にインストールすることができました。最新のpythonバージョンもインストールできました。 これまでのところとても良いです。 は私が実行しようとしているこのプロジェクトが見つかりました:廃止予定のコードでいくつかの問題がありました を https://github.com/anuvrat/soccerstats : (ScrapyDeprecat

    -1

    1答えて

    に私は、コマンドラインを介して自分のファイルをエクスポートしようとしている: scrapy crawl tunisaianet -o save.csv -t csv が、何も、任意の助けをhappenningされていませんか?ここ が私のコードです: import scrapy import csv from tfaw.items import TfawItem class Tuni

    0

    1答えて

    私は、ナショナルギャラリーオブアートのオンラインカタログから情報を取得しようとしています。カタログの構造上、エントリからエントリへのリンクを抽出して追跡することはできません。幸い、コレクション内の各オブジェクトには予測可能なURLがあります。スパイダーが開始URLを生成してコレクションをナビゲートするようにします。 スレッドをthisから実装することで問題を解決しようとしました。残念ながら、これは

    1

    2答えて

    私はウェブページのクロールに使用したコードです。私がスクレイプしたいサイトでは、レイジーローディングが有効になっているので、100個の画像のうち10個しか取得できず、残りはすべてplaceholder.jpgです。 Scrapyのレイジーローディングイメージを扱う最良の方法は何でしょうか? ありがとうございます! class MasseffectSpider(scrapy.Spider): na

    0

    1答えて

    私はすべてを試しましたが、parse_categoryの次のページを呼び出す方法がわかりません。 私はCatergoryページに直接行くと私はLinkExtractorを試しましたが、これはうまくいきませんでした。 import scrapy.selector import urlparse from scrapy.spiders import CrawlSpider, Rule from

    17

    3答えて

    問題があります。私はしばらくの間、関数の実行を停止する必要がありますが、全体として解析の実装を停止する必要はありません。つまり、私は非ブロッキングの一時停止が必要です。 イッツのようになります。 class ScrapySpider(Spider): name = 'live_function' def start_requests(self): yield Re

    0

    1答えて

    私は渡されたウェブサイトのリンクをクロールするスパイダーを持っています。別のデータセットでその実行が終了したら、同じスパイダーを再開したい。もう一度同じクローラを再起動するには?ウェブサイトはデータベースを通過します。すべてのWebサイトがクロールされるまで無制限のループでクローラを実行したい。現在、私は常にクローラscrapy crawl firstを起動する必要があります。クローラを一度起動す

    1

    1答えて

    私はScrapy XMLFeedSpiderを持っていると私は、次のparse_node機能をテストしようとしています: def parse_node(self, response, selector): date = selector.xpath('pubDate/text()').extract_first() url = selector.xpath('link/text