私はscrapy
を使用してウェブサイトのスクレイプデータをスクリーニングしています。しかし、私が望むデータはHTML自体の中にではなく、代わりにjavascriptのものです。だから、私の質問は:スクラップ、JavaScript内のデータを廃棄する
このような場合の値(テキスト値)を取得する方法は?私が取得しようとしている https://www.mcdonalds.com.sg/locate-us/
属性: 住所、連絡先、営業時間
これは、私がスクリーンこすりしようとしているサイトです。
クロムブラウザ内で「右クリック」、「ソースの表示」を行うと、そのような値がHTMLで利用できないことがわかります。
編集
SRYポール、私は、あなたが私に言った何をしたadmin-ajax.php
を発見し、身体を見たが、私は本当に今、立ち往生しています。
jsonオブジェクトから値を取得し、それを自分自身の可変フィールドに格納するにはどうすればよいですか?大衆のためにただ1つの属性を行う方法と、治療を開始したばかりの人々を共有する方法を分かち合うことができれば、良いでしょう。ここに私のコードは、要するにので、どのように私は店行い、長い編集のために、これまで
Items.py
class McDonaldsItem(Item):
name = Field()
address = Field()
postal = Field()
hours = Field()
McDonalds.py
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
import re
from fastfood.items import McDonaldsItem
class McDonaldSpider(BaseSpider):
name = "mcdonalds"
allowed_domains = ["mcdonalds.com.sg"]
start_urls = ["https://www.mcdonalds.com.sg/locate-us/"]
def parse_json(self, response):
js = json.loads(response.body)
pprint.pprint(js)
SRYだ
私の属性にjson値?例えば
***アイテム[ 'アドレス'] = *どのように取得するために****
PS、ではない私は
を使用してCMDライン上でこれらのスクリプトを実行し、このことができますかどうかわからなく、ためにscream crawl mcdonalds -o McDonalds.json -t json(すべてのデータをjsonファイルに保存する)
私は感謝の気持ちで十分にストレスを感じることができません。私はあなたにこれのための時間を持っていなくても、それはあなたにこれを頼むのは無理です。
ヘルプのためのThx有益で有益! *私と同じ問題に直面している人には、この投稿をチェックアウトしてください* – HeadAboutToExplode