scrapy-splash

1熱

1答えて

私は自分のPCにスクラップ・スプラッシュ・スパイダーの実例を持っています。私はそれを私のLinuxサーバーに移行しました。スパイダーは正常に動作し、スプラッシュなしで結果を取得します。しかし、同じWebサイトの場合、スプラッシュ（https://github.com/scrapy-plugins/scrapy-splash）を使用すると、スパイダーは何も取得せず、404エラーを返します。私はngi

0熱

1答えて

ScrapyJs（scrapy + splash）はスクリプトをロードできませんが、スプラッシュサーバーは正常に動作します

スクリプトを含むページをクロールするためにScrapy（scrapyjs）を適用しようとしています。 splash + scrapyを適用して、次のコードでレンダリングしました。ローカルホストを使用するのとまったく同じ引数である：8050サーバーに直接 script = """ function main(splash) local url = splash.args.ur

2熱

1答えて

スクラップスプラッシュでページ全体が正常にレンダリングされたことを確認するにはどうすればよいですか

スプラッシュを使用して全体のWebサイトをクロールしたときに問題が発生しました。全ターゲットページをレンダリングすることによって問題が発生しました。レンダリングジョブが完了したときにサポートされます。これは、レンダリング結果から情報の一部分を取得することを意味しますが、他のレンダリング結果からすべての情報を取得できます。ここでは私のコードです： yield SplashRequest(url,s

1熱

1答えて

スプラッシュで既に選択された要素オブジェクトから要素を選択する方法

splash:selectを使用して要素を選択した後、その要素の下にあるすべてのアンカー要素をどのように選択しますか？私はscrapy /スプラッシュとこの luaスクリプト試してみました： function main(splash) assert(splash:go(splash.args.url)) assert(splash:wait(0.9)) local

3熱

1答えて

Scrapy-Splashを使用したプロキシサーバー

ローカルのスプラッシュインスタンスでプロキシサーバーを動作させようとしています。私はいくつかの文書を読みましたが、実行可能な例は見つかりませんでした。このhttps://github.com/scrapy-plugins/scrapy-splash/issues/107が原因であると私の注意を喚起されました。私はもはやそのトレースバックを取得していませんが、依然としてプロキシを使用してスプラッシュ

2熱

1答えて

scrapy_splashパッケージを使用してフォーム投稿後にリダイレクトする方法は？

私はPython、Scrapy、Splash、およびscrapy_splashパッケージを使用してWebサイトをスクラップしています。私はscrapy_splashのSplashRequestオブジェクトを使用してログインできます。ログインすると、ポータルページにアクセスできるCookieが作成されます。この時点ですべての作品。ポータルページには、いくつかのボタンをラップするフォーム要素があ

0熱

1答えて

Scrapy SplashRequestと壊れたPNGs

私は、「render.png」エンドポイントを使用してウェブサイトのスクリーンショットを撮るためにScrapy-Splashを使用しようとしています（実際には、特定の例外が発生した後にスパイダーでこれを行います。サイトがどのようにそれらを探すかを見る）。問題は、応答が有効なPNGではないように見えることです。 scrapyシェルで分例は次のとおりです。 from scrapy_splash im

0熱

1答えて

失敗したアイテムを再試行するにはどうすればよいですか？

私は、Javascript主導のIFRAMEd HTMLページから情報を抽出するために、scrapy-splashを使用しています。時々、私のスプラッシュJavascript関数はブラウザの条件によっては失敗し、{"error": "NotSupportedError: DOM Exception 9"}のようなエラーメッセージを返します。私のアイテムのパイプラインで私はきれいな私の結果を維持す

2熱

2答えて

ScrapyとSplashを使用してAJAXベースのウェブサイトをスクラップする方法は？

AJAXのウェブサイトを含むあらゆるタイプのウェブサイトからすべてのデータをクロールおよびスクレイプできる一般的なスクレーパーを作りたいと思います。私は広範囲にインターネットを検索しましたが、ScrapyとSplashが一緒にAJAX Webサイト（ページング、フォームデータ、およびページが表示される前にボタンをクリックすることを含む）をスクラップする方法を私に説明できる適切なリンクを見つけること

0熱

1答えて

スプラッシュリターン空の値を持つスキンシェルの使用

私はこのサイトを掻いています：http://www.germandeli.com/Meats/Sausagesにはいくつかの動的コンテンツが含まれています。私はスプラッシュを使用してJavaScriptをレンダリングしていますが、空の値[]を返します。私のシステムはUbuntu 14.04 LTSです。はここのコードは、私が使用： $ scrapy shell 'http://localhos