2016-11-02 10 views
0

クラスのhrefタグ内のデータを抽出:HTMLから http://www.ipeen.com.tw/search/all/000/0-100-0-0/%E4%B8%AD%E5%BC%8F/?adkw=%E5%8F%B0%E5%8C%97<ウェブスクレーパーのpython>私はこのサイトのpython/beautifulsoupスクラップを使用したい

主な問題は、どのように抽出することである "/ショップ/ 1057970-麻辣公館" のようなこの:

<h3 class="name" id="shop_h3_"> 
 
<a class="a37 ga_tracking" data-action="ad_shop" data-category="search" data-label="店名" href="/shop/1057970-麻辣公館" target="_blank">麻辣公館</a> 
 
<span class="markVip">合作店家 <a class="joinVip ga_tracking" data-action="ad_shop" data-category="search" data-label="如何刊登" href="http://www.ipeen.com.tw/ad/adipeen.php?id=b31149405ef268fe0b2dd035f450000e">(如何刊登?)</a></span> </h3> 
 
<div class="serPic"> 
 
<div class="align"> 
 
<span></span> 
 
<a href="/shop/1057970-麻辣公館" target="_blank"><img alt="麻辣公館" class="lazy" src="http://iphoto.ipeen.com.tw/photo/ipeen/140x140/vip/0/7/9/store_1057970/sp1057970_20160416132749762.jpg" title="麻辣公館"/></a> 
 
</div> 
 
</div>

以下のいずれかが私のコードです:

url ='http://www.ipeen.com.tw/search/all/000/0-100-0-0/%E4%B8%AD%E5%BC%8F/?adkw=%E5%8F%B0%E5%8C%97' 
 
opener=urllib.request.build_opener() 
 
opener.addheaders = [('User-agent', 'Mozilla/5.0')] 
 
page = opener.open(url) 
 
soup = BeautifulSoup(page) 
 
soup.find_all('a', {'class':"a37 ga_tracking"})

いくつかの可能なアイデアに おかげで多くのことを教えてください!

答えて

0

あなたは良い道を歩いていました。ご回答に感謝@Fejs

[tag['href'] for tag in soup.find_all('a', {'class':"a37 ga_tracking"})] 
+0

こんにちは:あなたは複数のリンクをしたい場合は、

soup.find('a', {'class':"a37 ga_tracking"})['href'] 

のか:ちょうど使用する必要があります! ただし、取得するのは '' 'javascript:void(0); ' ' ラン' soup.find( 'A'、{ 'クラス': "A37 ga_tracking"})中に[ 'のhref'] ' –

+0

多分 'スープ等STHであります.find_all( 'a'、{'class': "a37 ga_tracking"}) '' ' ? –

+0

しかし、 soup.find_all( 'a'、{'class': "a37 ga_tracking"})のタグの '' [tag ['href']] '' ' はうまく動作します!感謝! ありがとう! @Fejs –

関連する問題