scrapy-splash

0熱

1答えて

すべてのページをクロールするmonster.com用のクローラを作成するにはどうすればよいですか。「次のページ」リンクの場合、monster.comは、JavaScript関数を呼び出しますが、scrapyはここが、それはページネーションのための私のコード機能していませんjavascriptを認識しません： import scrapy class MonsterComSpider(scrap

1熱

1答えて

スクラップスプラッシュから200以外のステータスコードを取得する方法

私はスクラピーとスクラブスプラッシュでリクエストステータスコードを取得しようとしていますが、以下はスパイダーコードです。最初される： yield SplashRequest(url, self.parse, args={'wait': 0.5, 'dont_redirect': True},meta={'handle_httpstatus_all': True}) 秒である： class Exp

1熱

1答えて

スクラップ+スプラッシュ：フルページのJavaScriptデータをレンダリングしない

私はスプラッシュを使用したスクリーニングを検討していますが、電子商取引サイトgapのいずれかのproductid、名前、価格のすべての製品（パンツ）私はスプラッシュウェブUI splash web UIから見たとき、私は（唯一の16項目は、リクエストごとにかかわらず、ロードされている - 見当もつかない理由）すべての動的製品データがロードされて表示されませんでした私は、次のオプションを試してみま

1熱

1答えて

私のスパイダーランをスプラッシュと組み合わせて書くことができません

これは、JavaScriptを有効にしたウェブサイトからさまざまな製品の名前と価格を解析するためにscrapy-splashを使って初めてのことです。スクリプトで使用したセレクタは完全であり、すでにセレンを使ってテストしています。ただし、スクリプトを実行すると、次のようなエラーが発生します。私はスパイダーのコレクションの合計ステータスであるログファイルを添付しました。私のクモがうまく実行されるため

0熱

1答えて

回転プロキシでscrapy-splashを使用するには？

私はJS私は動的なコンテンツをこするながら回転するプロキシサービスを利用するためにscrapy requestにexcuteと render.html両方のエンドポイントを適用するにはどうすればよいの要求 def start_requests(self): for url in self.start_urls: yield scrapy.Request( url,

4熱

2答えて

Scrapy CrawlSpider + Splash：linkextractorでリンクをたどる方法は？

私は部分的に取り組んでいる次のコードを持って、 class ThreadSpider(CrawlSpider): name = 'thread' allowed_domains = ['bbs.example.com'] start_urls = ['http://bbs.example.com/diy'] rules = ( Rule(Link

0熱

2答えて

治療のスプラッシュが結果を返さない

私はスクラピー（スプラッシュあり）を学び、jsを有効にしたページの結果をスクラップするためにスパイダーを構築しています。私のスパイダーは動作し、jsページの結果を返します。しかし、それはhttps://www.zara.com/us/en/bejewelled-appliqu%C3%A9-dress-p07854034.html?v1=4818592&v2=733885 xpath used: /

1熱

1答えて

治療スプラッシュ - ログ記録中

私は、scrapy + splash（this threadのおかげで）を使用してウェブサイトに接続しました。あなたがログインして利用可能ないくつかの要素を表示することができるので、私はログされていることを知っています。しかし、別のSplashRequestで別のページにアクセスしようとすると、だから、スクラップ（またはスプラッシュ）がセッションをアクティブに保っていないようです。ログを残して