scrapy-splash

0熱

1答えて

scrapy.FormRequest.from_response VS. SplashFormRequest.from_response

私は、スクラピーと全く同じ方法で、スクラップスプラッシュを使用してログインしようとしています。私はドキュメントDocを見てきましたが、 "SplashFormRequest.from_responseもサポートされていて、治療のドキュメントに記載されているように機能します" しかし、スプラッシュのドキュメントに記載されているように、結果。私は間違っているの？コード：設定に追加 import s

5熱

2答えて

PythonのScrapyでSplashRequestを実行しているときに待機中の要素を追加する

私はPythonでScreamのためのSplashを使っていくつかの動的Webサイトを削り取ろうとしています。しかし、スプラッシュが特定のケースで完全なページが読み込まれるのを待たないことが分かります。この問題に対処するための猛烈な方法は、大量のwait時間（たとえば、以下のスニペットでは5秒）を追加することでした。ただし、これは非常に非効率的で、依然として特定のデータをロードできません（コンテン

0熱

2答えて

スプラッシュがプロキシを使用しているときにJavascriptを実行していません

scrapy_splashを使用してjsが適切なコンテンツを取得するために必要なページをクロールしています。私はプロキシ設定なしでSplashRequestを使用するとすべてうまくいきますが、プロキシ設定を入れるとjavascriptがレンダリングされず、必要なデータがないprejavascript htmlコンテンツが表示されます。誰もこれを解決する方法を知っていますか？私はプロキシのIPが

0熱

1答えて

ここからダイナミックローディング画像をクロールしています。

私はトリップアドバイザーのウェブサイトからレビューを取得しようとしています。ウェブサイトの画像のほとんどが動的に読み込まれるので、私はスプラッシュのJavaScriptレンダリングサービスを使ってページを生成します。イメージの一部が読み込まれていて、一部が読み込まれていないという問題があります。私は10秒（最大）までの時間を待つスプラッシュを設定しようとしたとの結果がまだ同じである https:

1熱

2答えて

ウェブサイトからjavascript動的コンテンツを取得する方法

私はウェブサイトから動的コンテンツを取得しようとしています。私は治療でコンテンツを取得しようとしました。しかし、コンテンツはjsファイルで読み込まれています。だから、テキストには入りません。次に、このためにセレンをインストールしましたが、今はセッションエラーが発生していません。たとえば、これはコンテンツを取得しようとしているページです。 http://www.hepsiburada.com/

0熱

1答えて

javascriptが複数のリクエストをしたときにScrapy + Splashでクッキーを設定するには？

javascriptがロードされると、レスポンスにクッキーを設定する必要がある別のajaxリクエストが生成されます。ただし、Splashは複数のリクエストにまたがってCookieを保持しません。すべてのリクエストにCookieを保持する方法はありますか？あるいは、各リクエストの間に手動で割り当てることさえできます。

1熱

1答えて

scrapyスプラッシュはCrawlerSpider

を再帰的にクロールしていない私はこのようなルールで私CrawlerSpiderのprocess一にscrapyスプラッシュを統合した：問題はクロールがちょうど第1の深さにURLをレンダリングということです、 Iまた、悪いhttpコードやリダイレクトされた応答であっても、どのように応答することができますか？事前におかげで、

1熱

1答えて

スプラッシュリクエストからクッキーを読む

スプラッシュを使ってリクエストした後、クッキーにアクセスしようとしています。以下は、どのようにリクエストを作成したかです。 script = """ function main(splash) splash:init_cookies(splash.args.cookies) assert(splash:go{ splash.args.url, heade

0熱

1答えて

スプラッシュブラウザ（Scrapy/Python）のジオロケーションを設定する

私はウェブサイトに行くときに、ジオロケーションが設定されていない限りページがロードされないので、私のロケーションを認識するようにブラウザのジオロケーションを設定しようとしています。誰もがスプラッシュ・スクラピーでそれを設定する方法を知っていますか？私はオンラインを見回しましたが、これまで誰も尋ねていないようです。ありがとうございました

1熱

1答えて

スプラッシュを使用してScrapを使用してLinkedInを削るときに502エラーが発生しました

SplaffでScrapyを使用してNetflixのLinkedinの会社ページをスクラップしようとしました。私はscrap shellを使うと完璧に動作しますが、スクリプトを実行すると502のエラーが発生します。エラー：スプラッシュターミナルで 2017-01-06 16:06:45 [scrapy.core.engine] INFO: Spider opened 2017-01-06 16