0
URL構造がわからないサイトでScrapyを使用しようとしています。条件付きURLをScrapでスクラブする
私はしたいと思います:のXpathを含むページから
のみ抽出データ "// divの[@クラス=" 製品ビュー "]"。
エキス(CSV)で印刷URL、名前や価格のXPath
私は以下のスクリプトを実行すると、私が得るすべてはURLの
scrapy crawl dmoz>test.txt
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider
from scrapy.http import Request
DOMAIN = 'site.com'
URL = 'http://%s' % DOMAIN
class MySpider(BaseSpider):
name = "dmoz"
allowed_domains = [DOMAIN]
start_urls = [
URL
]
def parse(self, response):
for url in response.xpath('//a/@href').extract():
if not (url.startswith('http://') or url.startswith('https://')):
url= URL + url
if response.xpath('//div[@class="product-view"]'):
url = response.extract()
name = response.xpath('//div[@class="product-name"]/h1/text()').extract()
price = response.xpath('//span[@class="product_price_details"]/text()').extract()
yield Request(url, callback=self.parse)
print url