scrapy

    1

    1答えて

    クロール基づく条件Iは、次Scrapyの解析方法を有する: def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.ad

    1

    1答えて

    私は、(anaconda2と一緒にインストールされた)クローラをcronジョブとして実行しようとしています。今まで運がない。ここで はcronのコマンドです: * * * * * sh /home/username/anaconda2/folder/getdata.sh cronが、ここで1分ごと(私は、ログファイルをチェックし、OKであるように見える) とは、SHファイル内のコードで実行され

    2

    1答えて

    私はすべてのページのスクリーンショットを撮っている間にサイトを削り取ろうとしています。これまでのところ、私は次のコードをつなぎ合わせるために管理している:png_bytesため import json import base64 import scrapy from scrapy_splash import SplashRequest class ExtractSpider(scrap

    1

    1答えて

    ウェブサイトから価格情報を取得しようとしています(練習用のウェブクローラーを構築する方法を学ぶ)。私は私のクローラを構築するためにscrapyを使用していますし、私の価格のクモで、私は次のコード行と価格のHTMLフィールドのXPathを引くしようとしています: text = response.xpath(‘/html/body/div[8]/div[2]/div[1]/div[2]/div[4]/

    0

    2答えて

    サイトから/こすり画像をダウンロードするにはScrapyの画像パイプラインを使用している、私のコードの例のバージョンは、以下を参照してください。 import scrapy from scrapy_splash import SplashRequest from imageExtract.items import ImageextractItem class ExtractSpider(s

    0

    1答えて

    以下は私のコードを簡略化したものです。実行すると、テキスト「FINISHED」は「RUNNING」の前に長い時間を出力します。 import scrapy from scrapy_splash import SplashRequest class ExtractSpider(scrapy.Spider): name = 'extract' start_urls = ['S

    1

    2答えて

    私が訪れたページからhtmlを保存するscrapy Webクローラーを作成しています。私はまた、自分のファイル拡張子でクロールしたファイルを保存したい。 このは私が持っているもので、これまで スパイダークラス class MySpider(CrawlSpider): name = 'my name' start_urls = ['my url'] allowed_do

    0

    1答えて

    私はScrapy-Splashリクエストを使用してページのレンダリングされたスクリーンショットを取得していますが、そのページにも画像が必要です。私はそれらのイメージをダウンロードするためにパイプラインを使用しますが、私は考えていました - これは同じイメージに対する2つの要求をしませんか?スプラッシュがページをレンダリングしているときとダウンロード要求を送信したとき。 Scrapy-Splashリ

    1

    1答えて

    ScrapyとSplashを使ってスクリプトを実行していますが、これはサイトからさまざまなデータを取得しますが、各ページのオフラインコピーを作成する方法を探しています。 urllibはと def parse(self, response): filename = response.url.split("/")[-1] + '.html' with open(filename,

    0

    1答えて

    私は最近Scrapyの使用を開始しましたが、XMLFeedSpiderを使用してXMLページにあるページを抽出して読み込もうとしています。しかし、問題は、「IndexError:リストのインデックスが範囲外です」というエラーを返すことです。 私は、このアドレスにあるすべての製品ページを収集し、ロードしようとしています: "http://www.example.com/feed.xml" マイクモ: