2016-06-17 4 views
-1

href要素をリストに格納しようとしていますが、Pythonについての限られた知識のために少し問題があります。pythonを使用してhref要素をリストに格納しようとしています

import requests, bs4 

url = 'https://www.hellopeter.com/spar?page=2' 
response = requests.get(url) 
html = response.content 

soup = bs4.BeautifulSoup(html, "lxml") 

url_list = [] 
for detail in soup.findAll('div', attrs = {'class':'col-xs-12 review-post'}): 
    for Review in detail.findAll('a', attrs = {'class':'btn btn-custom-2 btn-full-review'}): 
     url_list = url_list.append(Review['href']) 

これには他にどのような選択肢があるのか​​よくわかりませんが、しばらく検索しています。

ありがとうございます。

+1

lxmlのライブラリを使用して、これが動作しませんか?間違いはありますか? –

+0

あなたは実際に何を求めていますか? –

+0

問題はurl_list = url_list.append(レビュー['href'])にあります。 url_list.append(Review ['href'])(これはhrefの値をurl_listに追加します(そして、url_listに割り当てているNoneを返します - あなたのエラーを返します)。あなた –

答えて

-1

from lxml import html 
import requests 

page = requests.get('https://www.hellopeter.com/spar?page=2') 
# or just get the page using urllib2 library 
tree = html.fromstring(page.content) 
divs= tree.xpath('//div[contains(@class, "col-xs-12") and contains(@class, "review-post")]') 
lst = [] 
for x in divs: 
    lst.append(x.xpath('//a[contains(@class, "btn") and contains(@class,"btn-custom-2") and contains(@class, "btn-full-review")]/@href')) 
print lst 
関連する問題