2017-09-20 15 views
0

this webpageに移動して、ナビゲーション部門のすべてのリンクを抽出しようとしています。ナビゲーションdiv内のリンクをPythonのスキルセレクタで抽出します

私はBeautifulsoupや要求などで正常にこれをしなかったが、以下:

>> import requests 
>> from bs4 import BeautifulSoup 
>> url='http://uk.farnell.com/c/electrical' 
>> response = requests.get(url) 
>> soup = BeautifulSoup(source.content, "html.parser") 
>> mydiv = soup.findAll("nav", { "class" : "filterCategoryLevelOne" }) 

my_divは私に私は、hrefの値を抽出することができ、そこからすべてのもののリストを提供します。どのように私はさらにscrapyにそのdiv要素内のhrefの値を見つけるのですか

>> scrapy shell -s USER_AGENT='Mozilla/5.0 (Linux; U; Android 2.3; en-us) AppleWebKit/999+ (KHTML, like Gecko) Safari/999.9' http://uk.farnell.com/c/electrical 
>> response.xpath('//nav[@class="filterCategoryLevelOne"]') 
[<Selector xpath='//nav[@class="filterCategoryLevelOne"]' data='<nav class="filterCategoryLevelOne" aria'>] 

次のように私はscrapyシェルと同じことを行う場合

はしかし、私は何か他のものを得ますか?

+0

あなたは ')(extract_first' '試す展開()'もしくはました – AndMar

答えて

2

あなたが直接すべてのURLを取得することができます:

response.xpath('//nav[@class="filterCategoryLevelOne"]//a/@href').extract() 
関連する問題