scrapy-splash

0熱

1答えて

scrapy-splashによってサイト（http://www.adl.com.tr/en/c/cengiz-abazoglu-koleksiyonu-4）をクロールしたいですか？しかし、javascriptで作ったアイテムを読み込めませんでした。私はsplash.wait（0.5）を（10）に増やし、DOWNLOAD_DELAY = 5を有効にしました。何も変わっていません。お勧めですか？

1熱

1答えて

スプラッシュとスプラッシュをHTTPプロキシと組み合わせたときの "500 Internal Server Error"

スプラッシュ（JavaScriptをレンダリングする）とTorをPrivoxy（匿名性を提供する）の両方を使用してDockerコンテナ内のScrapyスパイダーをクロールしようとしています。ここで私はこの目的のために使用していdocker-compose.ymlです：スクレーパーが持っている version: '3' services: scraper: build: ./

1熱

1答えて

Scrapy-Splashはプロキシプロファイルをどのように実装していますか？

http://splash.readthedocs.io/en/latest/api.html#proxy-profilesの後にプロキシプロファイルを設定しようとしても、HTTPプロキシ（"500 Internal Server Error" when combining Scrapy over Splash with an HTTP proxyを参照）と一緒にScrapy-Splashを使用す

0熱

1答えて

画像の内容をScrapy-Splashで返します

私はScrapy-Splashリクエストを使用してページのレンダリングされたスクリーンショットを取得していますが、そのページにも画像が必要です。私はそれらのイメージをダウンロードするためにパイプラインを使用しますが、私は考えていました - これは同じイメージに対する2つの要求をしませんか？スプラッシュがページをレンダリングしているときとダウンロード要求を送信したとき。 Scrapy-Splashリ

1熱

1答えて

別の設定で別のスパイダーにScrapy Requestを送信する方法は？

この質問は本質的にPass scraped URL's from one spider to anotherと同じですが、私はこれを行うための 'Scrapy-native'方法がないか再度確認したいと思います。 99％の時間がJavaScriptを表示せずに正常にスクラップできるウェブページを掻いています。しかし時々、これは失敗し、特定のFieldが存在しません。私はすべての予想フィールドが移入

2熱

1答えて

別のものからScrapyスパイダーを始める方法

私は1つのScrapyプロジェクトで2つのスパイダーを持っています。 Spider1は、ページまたはWebサイト全体のリストをクロールし、その内容を分析します。 Spider2はSplashを使用してGoogleでURLを取得し、そのリストをSpider1に渡します。 twisted.internet.error.ReactorAlreadyRunningをしてSpider1がある：ので、Spi

1熱

2答えて

MacでDockerが動作していないSplashサーバ

私はDockerでSplashサーバを設定して、javascriptをscrapy用にレンダリングしようとしています。私はDocker Toolboxをダウンロードしてインストールしました（CPU MMUのサポートがないため、MacBook pro 2009にDockerの最新バージョンがインストールされません）。 Dockerクイックスタートターミナルで、 "docker run -p 502

3熱

1答えて

スクラップスプラッシュでスプラッシュタイムアウトを設定するにはどうすればよいですか？

scrapy-splashを使用してWebページをクロールし、ドッカーでスプラッシュサービスを実行します。 commond： docker run -p 8050:8050 scrapinghub/splash --max-timeout 3600 しかし、私は504エラーを得ました。 "error": {"info": {"timeout": 30}, "description": "Tim

1熱

2答えて

Scrapy + Splash：内部html内の要素を削る

Scrapy + Splashを使用してウェブページをクロールし、データフォームのGoogle広告バナーやその他の広告を抽出しようとしています。私はScrpay-Splash APIを使用してスクリプトと画像が読み込まれ、スクリーンショットが表示されるようにしていますが、Googleの広告バナーはJSスクリプトで作成され、その内容をiframe内の新しいHTMLドキュメントに挿入しますスプラッ

2熱

2答えて

ScreamレスポンスでインラインJavaScriptを実行

Scrapyでウェブサイトにログインしようとしましたが、受信した応答はインラインJavaScriptのみを含むHTMLドキュメントです。 JSはデータをスクラップするページにリダイレクトされます。しかし、ScrapyはJSを実行しないので、私が望むページにはルーティングしません。私は必要なログインフォームを送信するには、次のコードを使用し： def parse(self, response):