scrapy-spider

    0

    1答えて

    私はScrapy-Splashリクエストを使用してページのレンダリングされたスクリーンショットを取得していますが、そのページにも画像が必要です。私はそれらのイメージをダウンロードするためにパイプラインを使用しますが、私は考えていました - これは同じイメージに対する2つの要求をしませんか?スプラッシュがページをレンダリングしているときとダウンロード要求を送信したとき。 Scrapy-Splashリ

    2

    1答えて

    私は1つのScrapyプロジェクトで2つのスパイダーを持っています。 Spider1は、ページまたはWebサイト全体のリストをクロールし、その内容を分析します。 Spider2はSplashを使用してGoogleでURLを取得し、そのリストをSpider1に渡します。 twisted.internet.error.ReactorAlreadyRunningをしてSpider1がある: ので、Spi

    0

    1答えて

    スクラップされたhtmlページにSQLエラーがあり、htmlタグが閉じられていないことに気付きましたが、xpathセレクタは閉じられていないタグ内のものを検出できません。 タグを検出するにはどうすればよいですか? おかげ

    0

    1答えて

    私はScrapyの現在のFilesPipelineを拡張するカスタムパイプラインを持っています。しかし、FILES_STORE変数の設定に問題があります。私の現在のファイル構造は次のとおりです。 my_scraper.py files/ #this is where I want the files to download to ので、私はFILES_STORE=/files/を設

    0

    1答えて

    私はScrapyを使用していて、いくつかの正規表現に一致するURLに従うだけの例に従っています。 私はPython開発者ではありませんが、私はこれを試してみるために多くのテクニックを試しました。 私はScrapyドキュメントのサンプルURLを使用しており、CrawlSpiderとimplicationinggの規則をLinkExtractorから拡張しています。 現在、「friend」という単語が

    1

    1答えて

    これはウェブサイトを介してクロールするスパイダーが1つあり、製品情報を一掃しています...そして、リンクは最初に構築され、それをチェック目的のために使用します。 私はこれをすべて1つのスパイダーで行うことができますが、スパイダーはすでに非常に大きい(25以上の異なるドメインの一般的なスパイダーです)、可能な限り分離しておきたいと思います。現在、私のようなこのマスタークモのインスタンスを作成していま

    0

    2答えて

    使用可能な変数で治療要求の結果を取得する方法。 def parse_node(self,response,node): yield Request('LINK',callback=self.parse_listing) def parse_listing(self,response): for agent in string.split(response.xpath('//n

    0

    1答えて

    imgurで画像をクロールするためにクローラを作成しようとしています。選択したい要素を選択するのに問題があります。ホームページの各画像のhrefリンクを選択しようとしています。ホームURLは:https://imgur.com/t/memes/ 誰かが素晴らしいだろう各画像の特定のhrefのリンクを取得するための正しいCSSのセレクタを知っている! 詳細を確認するには、href:here is t

    0

    1答えて

    私は治療にいくつか問題があります。私がコマンドscrapy crawl album -o test.xmlを実行すると、スパイダーはうまく動作します。スクリプトからクロールすると、私はと違うstart_urlsをスパイダーに与えますが、と同じはのコマンドと同じになります。両方のURLが利用可能です。ここに私が書いたコードがあります。私が間違っていることを指摘してください、ありがとう。 スパイダーフ