2011-10-27 6 views
0

私はウェブを解析して、今はトラフをナビゲートしたり、グラフを表示したりしたいと思います。 グラフを取得するにはどうすればよいですか?または、ツリーをナビゲートします。最初のステップを表示し、次に他のステップなどを示します。そして、木がどのように構築されたかを理解してください。トラフのlxmlカテゴリをナビゲート

import urllib 
from lxml import etree 
import StringIO 
resultado=urllib.urlopen('trozo.html') 
html = resultado.read() 
parser= etree.HTMLParser() 
tree=etree.parse(StringIO.StringIO(html),parser) 

私はノードを調べたいです!グラフはクールですが、私はそれを調べたいだけです!あなたは次の操作を行うかどうかを確認することができますよう

一つの解決策は.... :)

答えて

0

あなたは、構文解析を実現してください。

>>> tree 
<lxml.etree._ElementTree object at 0x0148AF08> 

を今、あなたはlxml._ElementTree機能を使用して、この要素を通過することができ、ここで説明:ここでは

http://lxml.de/tutorial.htmlは、いくつかの基本です、私は私のローカルネットワークから得た単純なファイルで:

>>> tree.getroot() 
<Element html at 147aae0> 
>>> tree.getroot().tag 
'html' 
>>> tree.getroot().text 
>>> for child in tree.getroot().getchildren(): 
    print child.tag, child.getchildren() 
head 
body 
>>> for child in tree.getroot().getchildren(): 
    print child.tag, [sub_child.tag for sub_child in child.getchildren()] 
head ['title'] 
body ['h1', 'p', 'hr', 'address']