AJAXのウェブサイトを含むあらゆるタイプのウェブサイトからすべてのデータをクロールおよびスクレイプできる一般的なスクレーパーを作りたいと思います。私は広範囲にインターネットを検索しましたが、ScrapyとSplashが一緒にAJAX Webサイト(ページング、フォームデータ、およびページが表示される前にボタンをクリックすることを含む)をスクラップする方法を私に説明できる適切なリンクを見つけることができませんでした。私が紹介したすべてのリンクでは、JavascriptのWebサイトはSplashを使ってレンダリングすることができますが、Splashを使用してJS Webサイトをレンダリングする方法についてのチュートリアルや説明はありません。私はブラウザを使用することに関連したソリューションを提供しないでください(私はプログラムですべてをやりたい、ヘッドレスブラウザの提案は大歓迎です...しかし私はスプラッシュを使いたい)。ScrapyとSplashを使用してAJAXベースのウェブサイトをスクラップする方法は?
class FlipSpider(CrawlSpider):
name = "flip"
allowed_domains = ["www.amazon.com"]
start_urls = ['https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=mobile']
rules = (Rule(LinkExtractor(), callback='lol', follow=True),
def parse_start_url(self,response):
yield scrapy.Request(response.url, self.lol, meta={'splash':{'endpoint':'render.html','args':{'wait': 5,'iframes':1,}}})
def lol(self, response):
"""
Some code
[splash doc](https://github.com/scrapy-plugins/scrapy-splash#installation)に従ったことがありますか?あなたの問題は何ですか? –
はい、私はしました。 Splashのドキュメントには、使用できるコマンドが記載されています。私はどのように動的コンテンツを取得するためにウェブサイトのjavascriptを実行するためにそれらを使用する方法を知りたいです... – Rohan
スプラッシュについての特定の質問や問題がない場合は、私はコピーしませんドキュメントを貼り付け...あなたが参照するあなたはJavaScriptベースのWebサイトをクロールできるはずです。 –