scrapy-splash

    0

    1答えて

    私は、スクラピーと全く同じ方法で、スクラップスプラッシュを使用してログインしようとしています。 私はドキュメントDocを見てきましたが、 "SplashFormRequest.from_responseもサポートされていて、治療のドキュメントに記載されているように機能します" しかし、スプラッシュのドキュメントに記載されているように、結果。私は間違っているの? コード:設定に追加 import s

    5

    2答えて

    私はPythonでScreamのためのSplashを使っていくつかの動的Webサイトを削り取ろうとしています。しかし、スプラッシュが特定のケースで完全なページが読み込まれるのを待たないことが分かります。この問題に対処するための猛烈な方法は、大量のwait時間(たとえば、以下のスニペットでは5秒)を追加することでした。ただし、これは非常に非効率的で、依然として特定のデータをロードできません(コンテン

    0

    2答えて

    scrapy_splashを使用してjsが適切なコンテンツを取得するために必要なページをクロールしています。 私はプロキシ設定なしでSplashRequestを使用するとすべてうまくいきますが、プロキシ設定を入れるとjavascriptがレンダリングされず、必要なデータがないprejavascript htmlコンテンツが表示されます。 誰もこれを解決する方法を知っていますか?私はプロキシのIPが

    0

    1答えて

    私はトリップアドバイザーのウェブサイトからレビューを取得しようとしています。ウェブサイトの画像のほとんどが動的に読み込まれるので、私はスプラッシュのJavaScriptレンダリングサービスを使ってページを生成します。 イメージの一部が読み込まれていて、一部が読み込まれていないという問題があります。私は10秒(最大)までの時間を待つスプラッシュを設定しようとしたとの結果がまだ同じである https:

    1

    2答えて

    私はウェブサイトから動的コンテンツを取得しようとしています。 私は治療でコンテンツを取得しようとしました。しかし、コンテンツはjsファイルで読み込まれています。だから、テキストには入りません。 次に、このためにセレンをインストールしましたが、今はセッションエラーが発生していません。 たとえば、これはコンテンツを取得しようとしているページです。 http://www.hepsiburada.com/

    0

    1答えて

    javascriptがロードされると、レスポンスにクッキーを設定する必要がある別のajaxリクエストが生成されます。ただし、Splashは複数のリクエストにまたがってCookieを保持しません。すべてのリクエストにCookieを保持する方法はありますか?あるいは、各リクエストの間に手動で割り当てることさえできます。

    1

    1答えて

    を再帰的にクロールしていない私はこのようなルールで私CrawlerSpiderのprocess一にscrapyスプラッシュを統合した: ​​ 問題はクロールがちょうど第1の​​深さにURLをレンダリングということです、 Iまた、悪いhttpコードやリダイレクトされた応答であっても、どのように応答することができますか?事前に おかげで、

    1

    1答えて

    スプラッシュを使ってリクエストした後、クッキーにアクセスしようとしています。 以下は、どのようにリクエストを作成したかです。 script = """ function main(splash) splash:init_cookies(splash.args.cookies) assert(splash:go{ splash.args.url, heade

    0

    1答えて

    私はウェブサイトに行くときに、ジオロケーションが設定されていない限りページがロードされないので、私のロケーションを認識するようにブラウザのジオロケーションを設定しようとしています。誰もがスプラッシュ・スクラピーでそれを設定する方法を知っていますか?私はオンラインを見回しましたが、これまで誰も尋ねていないようです。 ありがとうございました

    1

    1答えて

    SplaffでScrapyを使用してNetflixのLinkedinの会社ページをスクラップしようとしました。私はscrap shellを使うと完璧に動作しますが、スクリプトを実行すると502のエラーが発生します。 エラー:スプラッシュターミナルで 2017-01-06 16:06:45 [scrapy.core.engine] INFO: Spider opened 2017-01-06 16