2011-03-04 18 views
1

を取得し、私はこのHTMLを持っている:美しいスープとタグの内容

<a href="/watch?gl=US&amp;client=mv-google&amp;hl=en&amp;v=0C_yXOhJxWg">Miss Black OCU 2011</a> 

私のプログラムは、htmlファイルを読み込み、上記のそのファイルのチャンクです。 BeautifulSoupをPythonで使用して「Miss Black OCU 2011」を抽出するにはどうすればいいですか?ここで

+2

はペーストビンのような揮発性のサービスを使用しないでください! –

+1

そしてあなたの検索のための特定の基準は何ですか? –

+0

あなたはpastebinからあなたの質問にコードを移動する必要があります。あなたの質問は何年も続くでしょうが、30日後にはすべての文脈に欠けています。 –

答えて

3

は、簡単な修正です:

>>> from BeautifulSoup import BeautifulSoup as BS 
>>> soup = BS('<a href="/watch?gl=US&amp;client=mv-google&amp;hl=en&amp;v=0C_yXOhJxWg">Miss Black OCU 2011</a>') 
>>> tags = soup.findAll('a', href=True) 
>>> for tag in tags: tag.renderContents() 
'Miss Black OCU 2011' 
>>>