私はこのように見えるHTML要素があります。XPathのグループ化方法
を私はグループh1
、div.article-meta
、およびdiv.article-content
したいと思いますので、私はループに私Scrapyプロジェクト上のラインによって、そのデータ・ラインを書き込むことができます。
私はそれらのそれぞれをvarにグループ化し、そのループをvarと考えています。私はそれを行う方法がわかりません。
お勧めします。私が手
def parse(self, response):
now = time.strftime('%Y-%m-%d %H:%M:%S')
hxs = scrapy.Selector(response)
titles = hxs.xpath('//div[@class="list-article"]/h1')
images = hxs.xpath('//div[@class="list-article"]/feature-image')
contents = hxs.xpath('//div[@class="list-article"]/article-content')
for i, title in titles:
item = DapnewsItem()
item['categoryId'] = '1'
name = titles[i].xpath('a/text()')
if not name:
print('DAP => [' + now + '] No title')
else:
item['name'] = name.extract()[0]
description = contents[i].xpath('p/text()')
if not description:
print('DAP => [' + now + '] No description')
else:
item['description'] = description[1].extract()
url = titles[i].xpath("a/@href")
if not url:
print('DAP => [' + now + '] No url')
else:
item['url'] = url.extract()[0]
imageUrl = images[i].xpath('img/@src')
if not imageUrl:
print('DAP => [' + now + '] No imageUrl')
else:
item['imageUrl'] = imageUrl.extract()[0]
yield item
エラーこの:おかげで、
はこれまでのところ、私はこれを試してみました。
そここんにちはため
following-sibling::div[@class="feature-image"][1]
は、私は偉大なSOFAR – Vicheanak