scrapy

1熱

1答えて

クロール基づく条件Iは、次Scrapyの解析方法を有する： def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.ad

1熱

1答えて

CronジョブとしてAnaconda-Scrapyを実行します。

私は、（anaconda2と一緒にインストールされた）クローラをcronジョブとして実行しようとしています。今まで運がない。ここではcronのコマンドです： * * * * * sh /home/username/anaconda2/folder/getdata.sh cronが、ここで1分ごと（私は、ログファイルをチェックし、OKであるように見える）とは、SHファイル内のコードで実行され

2熱

1答えて

Scrapy Splashスクリーンショット？

私はすべてのページのスクリーンショットを撮っている間にサイトを削り取ろうとしています。これまでのところ、私は次のコードをつなぎ合わせるために管理している：png_bytesため import json import base64 import scrapy from scrapy_splash import SplashRequest class ExtractSpider(scrap

1熱

1答えて

Scrapy response.xpath無効な構文

ウェブサイトから価格情報を取得しようとしています（練習用のウェブクローラーを構築する方法を学ぶ）。私は私のクローラを構築するためにscrapyを使用していますし、私の価格のクモで、私は次のコード行と価格のHTMLフィールドのXPathを引くしようとしています： text = response.xpath(‘/html/body/div[8]/div[2]/div[1]/div[2]/div[4]/

0熱

2答えて

Scrapy Image Pipelineで重複ダウンロードを許可しますか？

サイトから/こすり画像をダウンロードするにはScrapyの画像パイプラインを使用している、私のコードの例のバージョンは、以下を参照してください。 import scrapy from scrapy_splash import SplashRequest from imageExtract.items import ImageextractItem class ExtractSpider(s

0熱

1答えて

Scrapy - Splashが終了するのを待ちますか？

以下は私のコードを簡略化したものです。実行すると、テキスト「FINISHED」は「RUNNING」の前に長い時間を出力します。 import scrapy from scrapy_splash import SplashRequest class ExtractSpider(scrapy.Spider): name = 'extract' start_urls = ['S

1熱

2答えて

Scrapyダウンロード可能なファイルを保存する

私が訪れたページからhtmlを保存するscrapy Webクローラーを作成しています。私はまた、自分のファイル拡張子でクロールしたファイルを保存したい。このは私が持っているもので、これまでスパイダークラス class MySpider(CrawlSpider): name = 'my name' start_urls = ['my url'] allowed_do

0熱

1答えて

画像の内容をScrapy-Splashで返します

私はScrapy-Splashリクエストを使用してページのレンダリングされたスクリーンショットを取得していますが、そのページにも画像が必要です。私はそれらのイメージをダウンロードするためにパイプラインを使用しますが、私は考えていました - これは同じイメージに対する2つの要求をしませんか？スプラッシュがページをレンダリングしているときとダウンロード要求を送信したとき。 Scrapy-Splashリ

1熱

1答えて

Pythonは完全なWebページ（CSSを含む）をダウンロードします

ScrapyとSplashを使ってスクリプトを実行していますが、これはサイトからさまざまなデータを取得しますが、各ページのオフラインコピーを作成する方法を探しています。 urllibはと def parse(self, response): filename = response.url.split("/")[-1] + '.html' with open(filename,

0熱

1答えて

scrapy - XMLFeedSpiderを使用してxmlからURLを抽出するには？

私は最近Scrapyの使用を開始しましたが、XMLFeedSpiderを使用してXMLページにあるページを抽出して読み込もうとしています。しかし、問題は、「IndexError：リストのインデックスが範囲外です」というエラーを返すことです。私は、このアドレスにあるすべての製品ページを収集し、ロードしようとしています： "http://www.example.com/feed.xml" マイクモ：