2010-12-01 10 views
1

私はこれらの要素をHTMLでWebページを持っている:ウェブページからこれらの要素を取り出す方法は?

<div class="content_page"> 
    <a href="/earth" class="nametessera" >earth</a> 
</div> 
<div class="content_page"> 
    <a href="/world" class="nametessera" >world</a> 
</div> 
<div class="content_page"> 
    <a href="/planet" class="nametessera">planet</a> 
</div> 
... 

私は/地球/世界、/惑星を取得する必要がある、など ので、私はクラス「nametessera」でタグAのすべてのリンクを取得する必要があります。

これをどうすればPythonで行うことができますか?

答えて

3

短い答え:

使用beautifulSoup、ページを解析するURLを取得し、urlib2またはpycurlが言及したURLをダウンロードするために使用します。

[編集:]あなたがパースあなたも

allHref = soup.findAll('a', { "class" : "nametessera" }) 
+0

実際にsoup.findAll( 'div'、{"class": "content_page"})はsoup.findAll( "div"、 "content_page")と同等です。 – zifot

+0

@zifot:はい。ありがとう。私はそれを通言のように伝える習慣が面倒です。 :) – pyfunc

3

を行うことができ

>>> alldiv = soup.findAll('div', { "class" : "content_page" }) 
>>> for div in alldiv: print div.a 
... 
<a href="/earth" class="nametessera">earth</a> 
<a href="/world" class="nametessera">world</a> 
<a href="/planet" class="nametessera">planet</a> 
>>> for div in alldiv: print div.a['href'] 
... 
/earth 
/world 
/plan 

同様のdivに含まれるHREFを使用以下だけの例にに追加

HTMLはBeautiful Soupです。

ドキュメントはhereです。

関連する問題