scrapy

-2熱

1答えて

<div><a src="What I need" data-src="What I don't need">Demo</a></div> 私は、このXPathの（ "./ DIV/A/@ SRC"）を試したのですが、それは私にそのすべてを与えるだろうが、私はしたくありません@ data-src、どうすればいいですか？生のページはこちらです： the raw page

0熱

1答えて

Scrapy JSON出力 - 空の値

私はscrapyを使用して一連のWebページをクロールしたいと思います。しかし、jsonファイルに値を書き込もうとすると、これらのフィールドは表示されません。 import scrapy class LLPubs (scrapy.Spider): name = "linlinks" start_urls = [ 'http://www.linnaeuslink.

0熱

1答えて

もう1つのビュータグへのxpathで参照されているように

私はscrapyフレームワークを使用していますが、分析されたWebページから他のデータを読み込むことはできません。あなたはそれについて何ができるか教えてください、ありがとう。 import scrapy from scrapy.spiders import CrawlSpider,Rule from scrapy.linkextractors import LinkExtractor fro

0熱

1答えて

文字列を組み合わせるScream python

json出力がよりきれいになるように、scrapyを使用するときに値のセットを組み合わせる方法について質問があります。ここに私が持っているものがあります： import scrapy from scrapy.contrib.loader import ItemLoader from scrapy.contrib.loader.processor import TakeFirst, MapCom

0熱

1答えて

画像をsrcからLinkExtractorに移動Scler CrawlSpider

私はサイトでクロールを行い、LinkExtractorを使用してリンクからリンクをクロールし、レスポンスステータスを確認しています。また、リンク抽出プログラムを使用してサイトから画像srcを取得したいと考えています。私はコードを持っており、サイトのURLとうまく動作しますが、イメージを取得することはできません。それはコンソールにログオンしないからです。 handle_httpstatus_lis

1熱

1答えて

スクラピースパイダーを再起動できません

私はスクイピープロジェクト（Scrapy 1.4、Python 3.x）を持っています。私は条件が満たされていないときに私のスパイダーを再実行したい。 OSコマンドを使用して実行クモ、bashスクリプトで実行クモ、CrawlerProcessなどを使用して実行クモ...しかし、私はエラーを得たたびに：私は、私はすべての可能な方法を試してみました、私のspider_closed機能に def __

-1熱

1答えて

ループしていないすべてのノードから情報を抽出します。

<ul class="products-grid"> <li class="item"> <div class="product-block"> <div class="product-block-inner"> <a href="#" title="Product A" class="product-image"><img src="#/pro

-1熱

1答えて

レスポンスには何も含まれていません

私は、warframe.marketの非常に単純なWebスクレーパーを作成しようとしているスクラップチュートリアルに従っています。私は学校から約1年のコーディング経験を持っていますが、Pythonの経験はありません。私は単にウェブサイトからアイテムの価格を取得したい。私はページをこすりするために、次を使用： scrapy shell "https://warframe.market/items/h

0熱

1答えて

カスタマイズCrawlera禁止ルールはScrapy

のために私は（旧）ワーキングウェブサイトのクローラーを更新中です。私がクロールしているウェブサイトにはより厳しい禁止規則が導入されているようですので、この問題を回避する試みとしてクローラを使用し始めました。私は現在抱えている問題は、対象のウェブサイトは、標準のHTMLページに302を行うための非標準的な禁止アプローチを使用していることです。クローラーはこれを禁止として検出せず、すぐにクロールを停