scrapy-splash

    0

    1答えて

    すべてのページをクロールするmonster.com用のクローラを作成するにはどうすればよいですか。 「次のページ」リンクの場合、monster.comは、JavaScript関数を呼び出しますが、scrapyはここ が、それはページネーションのための私のコード機能していませんjavascriptを認識しません: import scrapy class MonsterComSpider(scrap

    1

    1答えて

    私はスクラピーとスクラブスプラッシュでリクエストステータスコードを取得しようとしていますが、以下はスパイダーコードです。 最初される: yield SplashRequest(url, self.parse, args={'wait': 0.5, 'dont_redirect': True},meta={'handle_httpstatus_all': True}) 秒である: class Exp

    1

    1答えて

    私はスプラッシュを使用したスクリーニングを検討していますが、電子商取引サイトgapのいずれかのproductid、名前、価格のすべての製品(パンツ)私はスプラッシュウェブUI splash web UIから見たとき、私は(唯一の16項目は、リクエストごとにかかわらず、ロードされている - 見当もつかない理由)すべての動的製品データがロードされて表示されませんでした 私は、次のオプションを試してみま

    1

    1答えて

    これは、JavaScriptを有効にしたウェブサイトからさまざまな製品の名前と価格を解析するためにscrapy-splashを使って初めてのことです。スクリプトで使用したセレクタは完全であり、すでにセレンを使ってテストしています。ただし、スクリプトを実行すると、次のようなエラーが発生します。私はスパイダーのコレクションの合計ステータスであるログファイルを添付しました。私のクモがうまく実行されるため

    0

    1答えて

    私はJS私は動的なコンテンツをこするながら回転するプロキシサービスを利用するためにscrapy requestにexcuteと render.html両方のエンドポイントを適用するにはどうすればよいの要求 def start_requests(self): for url in self.start_urls: yield scrapy.Request( url,

    4

    2答えて

    私は部分的に取り組んでいる次のコードを持って、 class ThreadSpider(CrawlSpider): name = 'thread' allowed_domains = ['bbs.example.com'] start_urls = ['http://bbs.example.com/diy'] rules = ( Rule(Link

    0

    2答えて

    私はスクラピー(スプラッシュあり)を学び、jsを有効にしたページの結果をスクラップするためにスパイダーを構築しています。私のスパイダーは動作し、jsページの結果を返します。しかし、それはhttps://www.zara.com/us/en/bejewelled-appliqu%C3%A9-dress-p07854034.html?v1=4818592&v2=733885 xpath used: /

    1

    1答えて

    私は、scrapy + splash(this threadのおかげで)を使用してウェブサイトに接続しました。 あなたがログインして利用可能ないくつかの要素を表示することができるので、私はログされていることを知っています。しかし、別のSplashRequestで別のページにアクセスしようとすると、 だから、スクラップ(またはスプラッシュ)がセッションをアクティブに保っていないようです。ログを残して