scrapy-spider

0熱

1答えて

私はScrapy-Splashリクエストを使用してページのレンダリングされたスクリーンショットを取得していますが、そのページにも画像が必要です。私はそれらのイメージをダウンロードするためにパイプラインを使用しますが、私は考えていました - これは同じイメージに対する2つの要求をしませんか？スプラッシュがページをレンダリングしているときとダウンロード要求を送信したとき。 Scrapy-Splashリ

2熱

1答えて

別のものからScrapyスパイダーを始める方法

私は1つのScrapyプロジェクトで2つのスパイダーを持っています。 Spider1は、ページまたはWebサイト全体のリストをクロールし、その内容を分析します。 Spider2はSplashを使用してGoogleでURLを取得し、そのリストをSpider1に渡します。 twisted.internet.error.ReactorAlreadyRunningをしてSpider1がある：ので、Spi

0熱

1答えて

スクラップ検出タグが閉じていない

スクラップされたhtmlページにSQLエラーがあり、htmlタグが閉じられていないことに気付きましたが、xpathセレクタは閉じられていないタグ内のものを検出できません。タグを検出するにはどうすればよいですか？おかげ

0熱

1答えて

Scrapy - FILES_STOREの設定に関する問題？

私はScrapyの現在のFilesPipelineを拡張するカスタムパイプラインを持っています。しかし、FILES_STORE変数の設定に問題があります。私の現在のファイル構造は次のとおりです。 my_scraper.py files/ #this is where I want the files to download to ので、私はFILES_STORE=/files/を設

0熱

1答えて

Scrapy CrawlSpider - 特定のリンクをたどることができないか、カスタムハンドラーで解析する

私はScrapyを使用していて、いくつかの正規表現に一致するURLに従うだけの例に従っています。私はPython開発者ではありませんが、私はこれを試してみるために多くのテクニックを試しました。私はScrapyドキュメントのサンプルURLを使用しており、CrawlSpiderとimplicationinggの規則をLinkExtractorから拡張しています。現在、「friend」という単語が

1熱

1答えて

Scrapyはスパイダーがもう1つのプロパティを組み込んだものを持っています

これはウェブサイトを介してクロールするスパイダーが1つあり、製品情報を一掃しています...そして、リンクは最初に構築され、それをチェック目的のために使用します。私はこれをすべて1つのスパイダーで行うことができますが、スパイダーはすでに非常に大きい（25以上の異なるドメインの一般的なスパイダーです）、可能な限り分離しておきたいと思います。現在、私のようなこのマスタークモのインスタンスを作成していま

0熱

2答えて

治療要求の結果を取得

使用可能な変数で治療要求の結果を取得する方法。 def parse_node(self,response,node): yield Request('LINK',callback=self.parse_listing) def parse_listing(self,response): for agent in string.split(response.xpath('//n

0熱

1答えて

cssセレクタを使用してhrefリンクを取得する方法

imgurで画像をクロールするためにクローラを作成しようとしています。選択したい要素を選択するのに問題があります。ホームページの各画像のhrefリンクを選択しようとしています。ホームURLは：https://imgur.com/t/memes/ 誰かが素晴らしいだろう各画像の特定のhrefのリンクを取得するための正しいCSSのセレクタを知っている！詳細を確認するには、href：here is t

0熱

1答えて

scrapyのクロールはコマンドではうまくいきますが、スクリプトから実行すると何か心配があります

私は治療にいくつか問題があります。私がコマンドscrapy crawl album -o test.xmlを実行すると、スパイダーはうまく動作します。スクリプトからクロールすると、私はと違うstart_urlsをスパイダーに与えますが、と同じはのコマンドと同じになります。両方のURLが利用可能です。ここに私が書いたコードがあります。私が間違っていることを指摘してください、ありがとう。スパイダーフ