2017-10-24 8 views
0

私はこのHTMLから必要な情報をすべて抽出できます。私はタイトルからhref abd srcを抽出する必要があります。Python:クラス内のすべての情報(src、href、title)を抽出してください

HTML:

<div class="col-md-2 col-sm-2 col-xs-2 home-hot-thumb"> 
     <a itemprop="url" href="/slim?p=3090" class="main"> 
      <img src="/FileUploads/Post/3090.jpg?w=70&h=70&mode=crop" alt="apple" title="apple" /> 
     </a> 
    </div> 
    <div class="col-md-2 col-sm-2 col-xs-2 home-hot-thumb"> 
     <a itemprop="url" href="/slim?p=3091" class="main"> 
      <img src="/FileUploads/Post/3091.jpg?w=70&h=70&mode=crop" alt="banana" title="banana" /> 
     </a> 
    </div> 

コード:

import requests 
from bs4 import BeautifulSoup 

res = requests.get('http://www.cad.com/') 
soup = BeautifulSoup(res.text,"lxml") 
for a in soup.findAll('div', {"id":"home"}): 
    for b in a.select(".main"): 
     print ("http://www.cad.com"+b.get('href')) 
     print(b.get('title')) 

私は正常にこのからのhrefを得ることができますが、タイトルとsrcが別の行にあるので、私はそれらを抽出する方法がわかりません。この後、私はそれらをExcelに保存したいので、最初に1つを終了してから2番目のものを実行する必要があります。

予想される出力:

/slim?p=3090 
apple 
/FileUploads/Post/3091.jpg?w=70&h=70&mode=crop" alt="banana" title="banana 
/slim?p=3091 
banana 
/FileUploads/Post/3091.jpg?w=70&h=70&mode=crop" alt="banana" title="banana 

答えて

0

私の独自のソリューション:

import requests 
from bs4 import BeautifulSoup 

res = requests.get('http://www.cad.com/') 
soup = BeautifulSoup(res.text,"lxml") 
for a in soup.findAll('div', {"id":"home"}): 
    div = a.findAll('div', {"class": "home-hot-thumb"}) 
    for div in div: 
     title=(div.img.get('title')) 
     print(title) 
     href=('http://www.cad.com/'+div.a.get('href')) 
     print(href) 
     src=('http://www.cad.com/'+div.img.get('src')) 
     print(src.replace('?w=70&h=70&mode=crop', '')) 
関連する問題