scrapy-spider

0熱

1答えて

スクラップの画像パイプラインを使用して画像を取得する際に問題があります。エラーレポートから、私はScrapyに正しいimage_urlsを供給していると思います。しかし、Scrapyはそれらから画像をダウンロードするのではなく、次のエラーを返します。ValueError：要求に含まれていないスキームurl：h。これは画像パイプライン機能を初めて使用したので、私は簡単な間違いをしていると思われます

-1熱

1答えて

リンク抽出プログラムの援助

私は最終的に作業スクリプトを取得することができました。わずか1つの小さな問題です。最初のページを除いて、すべてのページをクロールして必要な情報をすべて取得できます。ここで私のエラー import scrapy.selector from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import Lin

2熱

1答えて

治療プロジェクトが実行されていません

私は自分のMacにpipをインストールし、それを正常にインストールすることができました。最新のpythonバージョンもインストールできました。これまでのところとても良いです。は私が実行しようとしているこのプロジェクトが見つかりました：廃止予定のコードでいくつかの問題がありましたを https://github.com/anuvrat/soccerstats ：（ScrapyDeprecat

-1熱

1答えて

輸出Pythonのデータcsvファイル

に私は、コマンドラインを介して自分のファイルをエクスポートしようとしている： scrapy crawl tunisaianet -o save.csv -t csv が、何も、任意の助けをhappenningされていませんか？ここが私のコードです： import scrapy import csv from tfaw.items import TfawItem class Tuni

0熱

1答えて

開始URLを生成するときに競合が発生する

私は、ナショナルギャラリーオブアートのオンラインカタログから情報を取得しようとしています。カタログの構造上、エントリからエントリへのリンクを抽出して追跡することはできません。幸い、コレクション内の各オブジェクトには予測可能なURLがあります。スパイダーが開始URLを生成してコレクションをナビゲートするようにします。スレッドをthisから実装することで問題を解決しようとしました。残念ながら、これは

1熱

2答えて

pythonを使用してレイジーローディング画像をスクラップする方法

私はウェブページのクロールに使用したコードです。私がスクレイプしたいサイトでは、レイジーローディングが有効になっているので、100個の画像のうち10個しか取得できず、残りはすべてplaceholder.jpgです。 Scrapyのレイジーローディングイメージを扱う最良の方法は何でしょうか？ありがとうございます！ class MasseffectSpider(scrapy.Spider): na

0熱

1答えて

私の解析で次のページを呼び出す方法 - Scrapy

私はすべてを試しましたが、parse_categoryの次のページを呼び出す方法がわかりません。私はCatergoryページに直接行くと私はLinkExtractorを試しましたが、これはうまくいきませんでした。 import scrapy.selector import urlparse from scrapy.spiders import CrawlSpider, Rule from

17熱

3答えて

治療：ノンブロッキング・ポーズ

問題があります。私はしばらくの間、関数の実行を停止する必要がありますが、全体として解析の実装を停止する必要はありません。つまり、私は非ブロッキングの一時停止が必要です。イッツのようになります。 class ScrapySpider(Spider): name = 'live_function' def start_requests(self): yield Re

0熱

1答えて

同じスパイダーをプログラムで呼び出す

私は渡されたウェブサイトのリンクをクロールするスパイダーを持っています。別のデータセットでその実行が終了したら、同じスパイダーを再開したい。もう一度同じクローラを再起動するには？ウェブサイトはデータベースを通過します。すべてのWebサイトがクロールされるまで無制限のループでクローラを実行したい。現在、私は常にクローラscrapy crawl firstを起動する必要があります。クローラを一度起動す

1熱

1答えて

ScrapyスパイダーPythonジェネレーター関数を正しくテストするにはどうすればよいですか？

私はScrapy XMLFeedSpiderを持っていると私は、次のparse_node機能をテストしようとしています： def parse_node(self, response, selector): date = selector.xpath('pubDate/text()').extract_first() url = selector.xpath('link/text