scrapy-spider

0熱

1答えて

このCurlは機能します。 https://user:[email protected]/v1/convert_from.json/?from=1000000&to=SGD&amount=AED,AUD,BDT&inverse=True しかし、このScrapyリクエストは機能しません。 yield scrapy.Request("https://justanalyticspteltd6598

0熱

1答えて

Python Scrapy：リンクをたどり、javascriptテーブルからデータを抽出

私はマレーシア国債のウェブサイト（http://bondinfo.bnm.gov.my/portal/server.pt）からデータを取得しようとしています。に行く必要があります。ホームページ>市場活動>歴史>歴史的な証券ボリュームこれは、テーブルに新しいページを開きます。そのテーブルからMGSをクリックし、現在の月のフィルタを適用し、フィルタリングされた検索のすべてのデータをスクラップし

-1熱

1答えて

クロールスパイダールールが機能しない

私はスパイダーフレームワークを使用してNY Institute of Technologyのコースのデータをスクラップするためにスパイダーを構築しようとしています...次にスパイダー（nyitspider.py）です。誰かが私がどこに間違っているのか教えてもらえますか？ from scrapy.spiders import CrawlSpider, Rule, BaseSpider, Spider

0熱

1答えて

FormRequestでのSchellシェルの使用

scrapy documentのコードでCMSメンバーシップサイトにログインしようとしていますが、postsというコードが付いています。私のエラーメッセージ： 2017-03-20 18:18:07 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://members.com/robots.txt> (referer: None) 2017-

2熱

1答えて

スクラップスプラッシュでページ全体が正常にレンダリングされたことを確認するにはどうすればよいですか

スプラッシュを使用して全体のWebサイトをクロールしたときに問題が発生しました。全ターゲットページをレンダリングすることによって問題が発生しました。レンダリングジョブが完了したときにサポートされます。これは、レンダリング結果から情報の一部分を取得することを意味しますが、他のレンダリング結果からすべての情報を取得できます。ここでは私のコードです： yield SplashRequest(url,s

2熱

1答えて

治療のエラー処理のURL

こんにちは、私は、スパイダーをコードしようとしていますが、どこにエラーがあるのか、または開始URLを処理中にエラーの解決策が見つからないxpathや他のもので問題があるかどうかを知っていて、間違ったインデントについて話したスレッドのほとんどは、私の場合ではありません。コード： import scrapy from scrapy.exceptions import CloseSpider

-1熱

1答えて

Python Scrapy - scrappersを設定する一般的な方法

PythonフレームワークScrapyはうまく機能しますが、実行時にスパイダーを設定する方法がわかりません。すべての設定を私が "静的"にすると便利ではないと思われます。うんざりしたデザインか何かを逃した？たとえば、難しい初期化ルーチンを必要とするスパイダーがあります。ログインしたユーザーであるため、自分のスクリプトを使用してクロール用のHTTPヘッダー（Cookie、ユーザーエージェントなど

0熱

1答えて

治療/要求シミュレーションXHR

私はhttps://www.tripadvisor.com/Hotel_Review-g60763-d2173604-Reviews-Dream_Downtown-New_York_City_New_York.htmlからレビューを取得しようとしています。レビューをもっとクリックすると必要なAJAXリクエストのようです。https://www.tripadvisor.com/OverlayWidg