2017-09-04 9 views
0
<a href="/apartamento-en-venta/bogota/nicolas_federman-det-2658430.aspx" title="Apartamento en Venta - Bogotá Nicolás de Federmán"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Bogotá - Nicolás De Federmán 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a> 
, 
<a href="/apartamento-en-venta/ibague/multicentro-det-2952281.aspx" title="Apartamento en Venta - Ibagué Multicentro"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Ibagué - Multicentro 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Tolima 
    </div> 
</a> 
, 
<a href="/apartamento-en-venta/bogota/bella_suiza-det-2865659.aspx" title="Apartamento en Venta - Bogotá Bella Suiza"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Bogotá - Bella Suiza 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a> 
, 
<a href="/apartamento-en-venta/bogota/cedritos-det-2844663.aspx" title="Apartamento en Venta - Bogotá Cedritos"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Bogotá - Cedritos 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a> 
, 
<a href="/oficina-en-venta/bogota/usaquen-det-3036032.aspx" title="Oficina en Venta - Bogotá Usaquén"> 
    <div> 
     <h2 class="h2-grid"> 
     Oficina en Bogotá - Usaquén 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a> 

上記のhtml要素から 'aspx'リンクを取得するにはどうすればよいですか。上記のHTMLコンテンツから私は、私はhtml要素を取得するために、次のpythonコードを使用しました次の値html要素からhrefコンテンツを取得する方法

/apartamento-en-venta/bogota/nicolas_federman-det-2658430.aspx 
/apartamento-en-venta/ibague/multicentro-det-2952281.aspx 
/apartamento-en-venta/bogota/bella_suiza-det-2865659.aspx 
/apartamento-en-venta/bogota/cedritos-det-2844663.aspx 

をフェッチする必要があるのaspx値に URL =「https://www.fincaraiz.com.co/finca-raiz/?ad=30|2||||1||||||||||||||||||||||1|||1||||||

を取得する方法を知っておく必要があります
import re 
import requests 
from bs4 import BeautifulSoup 
page = requests.get(url) 
soup = BeautifulSoup(page.content , 'lxml') 
index = soup.findAll('div' , 'span-title') 
x = [] 
for i in index: 
    x.append(i.find('a')) 
print (x) 

私はそれはあなたがタグを見つけた後、あなたはget('href')を使用することができますPythonコードに入力する

+1

'soup.find(href = re.compile( '' 'someregex' '))' –

答えて

0

をコード上記のURLを掲載しました。

for i in index: 
    x.append(i.find('a').get('href')) 

これが問題を解決する場合は、これを回答としてマークしてください。ありがとう!

+0

のようなものですが、正規表現を使用する必要があります。魅力的に機能し、問題を解決しました。ありがとうもう一度 –

+0

@ sudharsonnsなぜあなたは答えを受け入れないのですか? –

+0

残念なことに、ページが遅く読み込まれていたため、受け入れることができません。ただimmediatleyにコメントしました –

関連する問題