scrapy-splash

    1

    1答えて

    私は自分のPCにスクラップ・スプラッシュ・スパイダーの実例を持っています。私はそれを私のLinuxサーバーに移行しました。スパイダーは正常に動作し、スプラッシュなしで結果を取得します。しかし、同じWebサイトの場合、スプラッシュ(https://github.com/scrapy-plugins/scrapy-splash)を使用すると、スパイダーは何も取得せず、404エラーを返します。私はngi

    0

    1答えて

    スクリプトを含むページをクロールするためにScrapy(scrapyjs)を適用しようとしています。 splash + scrapyを適用して、次のコードでレンダリングしました。ローカルホストを使用するのとまったく同じ引数である :8050サーバーに直接 script = """ function main(splash) local url = splash.args.ur

    2

    1答えて

    スプラッシュを使用して全体のWebサイトをクロールしたときに問題が発生しました。全ターゲットページをレンダリングすることによって問題が発生しました。レンダリングジョブが完了したときにサポートされます。これは、レンダリング結果から情報の一部分を取得することを意味しますが、他のレンダリング結果からすべての情報を取得できます。ここで は私のコードです: yield SplashRequest(url,s

    1

    1答えて

    splash:selectを使用して要素を選択した後、その要素の下にあるすべてのアンカー要素をどのように選択しますか?私はscrapy /スプラッシュとこの luaスクリプト試してみました : function main(splash) assert(splash:go(splash.args.url)) assert(splash:wait(0.9)) local

    3

    1答えて

    ローカルのスプラッシュインスタンスでプロキシサーバーを動作させようとしています。私はいくつかの文書を読みましたが、実行可能な例は見つかりませんでした。このhttps://github.com/scrapy-plugins/scrapy-splash/issues/107が原因であると私の注意を喚起されました。私はもはやそのトレースバックを取得していませんが、依然としてプロキシを使用してスプラッシュ

    2

    1答えて

    私はPython、Scrapy、Splash、およびscrapy_splashパッケージを使用してWebサイトをスクラップしています。 私はscrapy_splashのSplashRequestオブジェクトを使用してログインできます。 ログインすると、ポータルページにアクセスできるCookieが作成されます。この時点ですべての作品。 ポータルページには、いくつかのボタンをラップするフォーム要素があ

    0

    1答えて

    私は、「render.png」エンドポイントを使用してウェブサイトのスクリーンショットを撮るためにScrapy-Splashを使用しようとしています(実際には、特定の例外が発生した後にスパイダーでこれを行います。サイトがどのようにそれらを探すかを見る)。 問題は、応答が有効なPNGではないように見えることです。 scrapyシェルで分例は次のとおりです。 from scrapy_splash im

    0

    1答えて

    私は、Javascript主導のIFRAMEd HTMLページから情報を抽出するために、scrapy-splashを使用しています。時々、私のスプラッシュJavascript関数はブラウザの条件によっては失敗し、{"error": "NotSupportedError: DOM Exception 9"}のようなエラーメッセージを返します。私のアイテムのパイプラインで 私はきれいな私の結果を維持す

    2

    2答えて

    AJAXのウェブサイトを含むあらゆるタイプのウェブサイトからすべてのデータをクロールおよびスクレイプできる一般的なスクレーパーを作りたいと思います。私は広範囲にインターネットを検索しましたが、ScrapyとSplashが一緒にAJAX Webサイト(ページング、フォームデータ、およびページが表示される前にボタンをクリックすることを含む)をスクラップする方法を私に説明できる適切なリンクを見つけること

    0

    1答えて

    私はこのサイトを掻いています:http://www.germandeli.com/Meats/Sausagesにはいくつかの動的コンテンツが含まれています。 私はスプラッシュを使用してJavaScriptをレンダリングしていますが、空の値[]を返します。私のシステムはUbuntu 14.04 LTSです。 はここのコードは、私が使用: $ scrapy shell 'http://localhos