セットアップリンク項目は、私は住宅の広告をこすりscrapyを使用してscrapy
でのhrefを解析されています。
ad-overview pageで、私は個々の広告にリンクしている階層を持つリストを取得します。 forループによって、hrefは第2のパーサ関数に送られ、広告ごとの住宅特性が得られます。
def parse(self, response):
# for href in list with hrefs
for href in response.xpath(
'//*[@id]/@href',
).extract()[1:-1]:
yield scrapy.Request(response.urljoin(href),
callback=self.parse_ad)
def parse_ad(self, response):
# here follows code to obtain housing characteristics per ad
yield {'char1': char1,
'char2': char2,}
これは問題なく動作します。
問題
のhref以外にも、私はまた、使用して広告-概要ページから郵便番号のリストを取得し、
response.xpath('//*[@id]/div[1]/div/div[1]/div[1]/div[2]/meta').extract()
最終的に私は
、持っていると思いますyield {'char1': char1,
'char2': char2,
'postal code': postal_code}
しかし、わかりません。
- メイクパイソンは両方
href
とそれに対応するpostal_code
- を選択
parse_ad()
私が行くにはどうすればよい
下yield
関数にオーバーpostal_code
を運びますか?
1.あなたはfucntion 'parse'で抽出された' href'を、使用したいですか? 2.いくつかのdictを「返す」ために、ある関数に複数の 'yield'呼び出しがあるかもしれません。 –