2011-07-17 11 views
1

私は、Twitterで友人を見つけるのに役立つアプリを作ることに決めました。Python XMl Parser with BeautifulSoup。タグを削除するにはどうすればよいですか?

私はxmlページからユーザー名を取得できました。たとえば、現在のコードでは、<uri>http://twitter.com/username</uri>をXMLページから取得できますが、Beautiful Soupを使用して<uri></uri>というタグを削除したいとします。ここで

は私の現在のコードです:

import urllib 
import BeautifulSoup 

doc = urllib.urlopen("http://search.twitter.com/search.atom?q=travel").read() 

soup = BeautifulStoneSoup(''.join(doc)) 
data = soup.findAll("uri") 
+0

以下のいずれかの回答は役に立ちますか? – Johnsyweb

答えて

0

BeautifulSoup、textについてのご質問に答えるためには、各<uri>タグの内容をつかむために必要なものです。ここで私はリスト内包に情報を抽出します。

>>> uris = [uri.text for uri in soup.findAll('uri')] 
>>> len(uris) 
15 
>>> print uris[0] 
http://twitter.com/MarieJeppesen 

しかし、as zeekay saysTwitter's REST APIツイッターを問い合わせるためのより良いアプローチです。

1

BeautifulSoupを使用してツイッターを解析しないでください。API(BeautifulSoupも使用しないでください。lxmlを使用してください)。あなたの質問にお答えします:

import urllib 
from BeautifulSoup import BeautifulSoup 

resp = urllib.urlopen("http://search.twitter.com/search.atom?q=travel") 
soup = BeautifulSoup(resp.read()) 
for uri in soup.findAll('uri'): 
    uri.extract() 
+0

あなたが私に与えたコードにはtwitter.com/usernameの間にUriタグがあります。 – Geroge

+0

すべてのタグは 'soup'、' str(soup).find( 'uri')= = -1'となる。 – zeekay

関連する問題