Python：クラス内のすべての情報（src、href、title）を抽出してください

私はこのHTMLから必要な情報をすべて抽出できます。私はタイトルからhref abd srcを抽出する必要があります。Python：クラス内のすべての情報（src、href、title）を抽出してください

HTML：

<div class="col-md-2 col-sm-2 col-xs-2 home-hot-thumb"> 
     <a itemprop="url" href="/slim?p=3090" class="main"> 
      <img src="/FileUploads/Post/3090.jpg?w=70&h=70&mode=crop" alt="apple" title="apple" /> 
     </a> 
    </div> 
    <div class="col-md-2 col-sm-2 col-xs-2 home-hot-thumb"> 
     <a itemprop="url" href="/slim?p=3091" class="main"> 
      <img src="/FileUploads/Post/3091.jpg?w=70&h=70&mode=crop" alt="banana" title="banana" /> 
     </a> 
    </div>

コード：

import requests 
from bs4 import BeautifulSoup 

res = requests.get('http://www.cad.com/') 
soup = BeautifulSoup(res.text,"lxml") 
for a in soup.findAll('div', {"id":"home"}): 
    for b in a.select(".main"): 
     print ("http://www.cad.com"+b.get('href')) 
     print(b.get('title'))

私は正常にこのからのhrefを得ることができますが、タイトルとsrcが別の行にあるので、私はそれらを抽出する方法がわかりません。この後、私はそれらをExcelに保存したいので、最初に1つを終了してから2番目のものを実行する必要があります。

予想される出力：

/slim?p=3090 
apple 
/FileUploads/Post/3091.jpg?w=70&h=70&mode=crop" alt="banana" title="banana 
/slim?p=3091 
banana 
/FileUploads/Post/3091.jpg?w=70&h=70&mode=crop" alt="banana" title="banana

出典

2017-10-24 Makiyo

私の独自のソリューション：

import requests 
from bs4 import BeautifulSoup 

res = requests.get('http://www.cad.com/') 
soup = BeautifulSoup(res.text,"lxml") 
for a in soup.findAll('div', {"id":"home"}): 
    div = a.findAll('div', {"class": "home-hot-thumb"}) 
    for div in div: 
     title=(div.img.get('title')) 
     print(title) 
     href=('http://www.cad.com/'+div.a.get('href')) 
     print(href) 
     src=('http://www.cad.com/'+div.img.get('src')) 
     print(src.replace('?w=70&h=70&mode=crop', ''))

出典

2017-10-24 03:34:16 Makiyo

Python：クラス内のすべての情報（src、href、title）を抽出してください

答えて

関連する問題