html要素からhrefコンテンツを取得する方法

<a href="/apartamento-en-venta/bogota/nicolas_federman-det-2658430.aspx" title="Apartamento en Venta - Bogotá Nicolás de Federmán"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Bogotá - Nicolás De Federmán 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a> 
, 
<a href="/apartamento-en-venta/ibague/multicentro-det-2952281.aspx" title="Apartamento en Venta - Ibagué Multicentro"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Ibagué - Multicentro 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Tolima 
    </div> 
</a> 
, 
<a href="/apartamento-en-venta/bogota/bella_suiza-det-2865659.aspx" title="Apartamento en Venta - Bogotá Bella Suiza"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Bogotá - Bella Suiza 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a> 
, 
<a href="/apartamento-en-venta/bogota/cedritos-det-2844663.aspx" title="Apartamento en Venta - Bogotá Cedritos"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Bogotá - Cedritos 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a> 
, 
<a href="/oficina-en-venta/bogota/usaquen-det-3036032.aspx" title="Oficina en Venta - Bogotá Usaquén"> 
    <div> 
     <h2 class="h2-grid"> 
     Oficina en Bogotá - Usaquén 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a>

上記のhtml要素から 'aspx'リンクを取得するにはどうすればよいですか。上記のHTMLコンテンツから私は、私はhtml要素を取得するために、次のpythonコードを使用しました次の値html要素からhrefコンテンツを取得する方法

/apartamento-en-venta/bogota/nicolas_federman-det-2658430.aspx 
/apartamento-en-venta/ibague/multicentro-det-2952281.aspx 
/apartamento-en-venta/bogota/bella_suiza-det-2865659.aspx 
/apartamento-en-venta/bogota/cedritos-det-2844663.aspx

をフェッチする必要があるのaspx値に URL =「https://www.fincaraiz.com.co/finca-raiz/?ad=30|2||||1||||||||||||||||||||||1|||1||||||」

を取得する方法を知っておく必要があります

import re 
import requests 
from bs4 import BeautifulSoup 
page = requests.get(url) 
soup = BeautifulSoup(page.content , 'lxml') 
index = soup.findAll('div' , 'span-title') 
x = [] 
for i in index: 
    x.append(i.find('a')) 
print (x)

私はそれはあなたがタグを見つけた後、あなたはget('href')を使用することができますPythonコードに入力する

出典

2017-09-04 sudharsonn s

'soup.find（href = re.compile（ '' 'someregex' '））' –

をコード上記のURLを掲載しました。

for i in index: 
    x.append(i.find('a').get('href'))

これが問題を解決する場合は、これを回答としてマークしてください。ありがとう！

出典

2017-09-04 16:23:31 chad

のようなものですが、正規表現を使用する必要があります。魅力的に機能し、問題を解決しました。ありがとうもう一度 –

@ sudharsonnsなぜあなたは答えを受け入れないのですか？ –

残念なことに、ページが遅く読み込まれていたため、受け入れることができません。ただimmediatleyにコメントしました –

html要素からhrefコンテンツを取得する方法

答えて

関連する問題