0
私は複数のhtmlタグを持っています。この例では、この1行のデータなど、1st href = "..."の内容のみを抽出します。は、出力としてのみリンクする必要があります
<a class="product-link" data-styleid="1424359" href="/tops/biba/biba-beige--pink-women-floral-print-top/1424359/buy?src=search"><img _src="http://assets.myntassets.com/h_240,q_95,w_180/v1/assets/images/1424359/2016/9/28/11475053941748-BIBA-Beige--Pink-Floral-Print-Kurti-7191475053941511-1_mini.jpg" _src2="http://assets.myntassets.com/h_307,q_95,w_230/v1/assets/images/1424359/2016/9/28/11475053941748-BIBA-Beige--Pink-Floral-Print-Kurti-7191475053941511-1_mini.jpg" alt="BIBA Beige & Pink Women Floral Print Top" class="lazy loading thumb" onerror="this.className='thumb error'" onload="this.className='thumb'"/><div class="brand">Biba</div><div class="product">Beige & Pink Women Floral Print Top</div><div class="price">Rs. 899</div><div class="sizes">Sizes: S, L, XL, XXL</div></a>
私だけ/tops/biba/biba-beige--pink-women-floral-print-top/1424359/buy?src=search
出力としてをしたい
コードは次のとおりです。
from bs4 import BeautifulSoup
import urllib
x=urllib.urlopen("http://www.myntra.com/tops-tees-menu/")
soup2 = BeautifulSoup(x, 'html.parser')
for i in soup2.find_all('a', attrs={'class': 'product-link'}):
print i
print i.find('a')['href']
「i」は、それぞれ要素に結合されている。そして、あなたは 'find()' 要素_within_ 要素を 'i'に束縛しようとします。これらのネストされたリンクは存在しません。代わりに 'i'オブジェクトのhref属性を直接必要とします。 'i'は、特にループ変数として、整数ではない何かにとって非常に悪い名前です。これはほとんどのプログラマーを混乱させる。 – BlackJack