scrapy-splash

    0

    1答えて

    scrapy-splashによってサイト(http://www.adl.com.tr/en/c/cengiz-abazoglu-koleksiyonu-4)をクロールしたいですか?しかし、javascriptで作ったアイテムを読み込めませんでした。私はsplash.wait(0.5)を(10)に増やし、DOWNLOAD_DELAY = 5を有効にしました。何も変わっていません。 お勧めですか?

    1

    1答えて

    スプラッシュ(JavaScriptをレンダリングする)とTorをPrivoxy(匿名性を提供する)の両方を使用してDockerコンテナ内のScrapyスパイダーをクロールしようとしています。ここで私はこの目的のために使用していdocker-compose.ymlです:スクレーパーが持っている version: '3' services: scraper: build: ./

    1

    1答えて

    http://splash.readthedocs.io/en/latest/api.html#proxy-profilesの後にプロキシプロファイルを設定しようとしても、HTTPプロキシ("500 Internal Server Error" when combining Scrapy over Splash with an HTTP proxyを参照)と一緒にScrapy-Splashを使用す

    0

    1答えて

    私はScrapy-Splashリクエストを使用してページのレンダリングされたスクリーンショットを取得していますが、そのページにも画像が必要です。私はそれらのイメージをダウンロードするためにパイプラインを使用しますが、私は考えていました - これは同じイメージに対する2つの要求をしませんか?スプラッシュがページをレンダリングしているときとダウンロード要求を送信したとき。 Scrapy-Splashリ

    1

    1答えて

    この質問は本質的にPass scraped URL's from one spider to anotherと同じですが、私はこれを行うための 'Scrapy-native'方法がないか再度確認したいと思います。 99%の時間がJavaScriptを表示せずに正常にスクラップできるウェブページを掻いています。しかし時々、これは失敗し、特定のFieldが存在しません。私はすべての予想フィールドが移入

    2

    1答えて

    私は1つのScrapyプロジェクトで2つのスパイダーを持っています。 Spider1は、ページまたはWebサイト全体のリストをクロールし、その内容を分析します。 Spider2はSplashを使用してGoogleでURLを取得し、そのリストをSpider1に渡します。 twisted.internet.error.ReactorAlreadyRunningをしてSpider1がある: ので、Spi

    1

    2答えて

    私はDockerでSplashサーバを設定して、javascriptをscrapy用にレンダリングしようとしています。 私はDocker Toolboxをダウンロードしてインストールしました(CPU MMUのサポートがないため、MacBook pro 2009にDockerの最新バージョンがインストールされません)。 Dockerクイックスタートターミナルで、 "docker run -p 502

    3

    1答えて

    scrapy-splashを使用してWebページをクロールし、ドッカーでスプラッシュサービスを実行します。 commond: docker run -p 8050:8050 scrapinghub/splash --max-timeout 3600 しかし、私は504エラーを得ました。 "error": {"info": {"timeout": 30}, "description": "Tim

    1

    2答えて

    Scrapy + Splashを使用してウェブページをクロールし、データフォームのGoogle広告バナーやその他の広告を抽出しようとしています。 私はScrpay-Splash APIを使用してスクリプトと画像が読み込まれ、スクリーンショットが表示されるようにしていますが、Googleの広告バナーはJSスクリプトで作成され、その内容をiframe内の新しいHTMLドキュメントに挿入します スプラッ

    2

    2答えて

    Scrapyでウェブサイトにログインしようとしましたが、受信した応答はインラインJavaScriptのみを含むHTMLドキュメントです。 JSはデータをスクラップするページにリダイレクトされます。しかし、ScrapyはJSを実行しないので、私が望むページにはルーティングしません。私は必要なログインフォームを送信するには、次のコードを使用し : def parse(self, response):