を取得するための簡単な方法は、私は、ページ内のすべての興味深いリンクを見つけるために、このコードを使用しています。残念ながらその内にタグがあります。フォント,bなどさまざまなネストされたタグがあります。他のHTMLタグを使用せずにテキストコンテンツを取得したいと思います。BeautifulSoup HTML無内容
リンクの例:もちろん
<A HREF="notizia.php?idn=1134" OnMouseOver="verde();" OnMouseOut="blu();"><FONT CLASS="v12"><B>03-11-2009: <font color=green>CCS Ingegneria Elettronica-Sportello studenti ed orientamento</B></FONT></A>
それは醜いだ(とマークアップは常に同じではありません!)と私が取得したいのです:ドキュメントで
03-11-2009: CCS Ingegneria Elettronica-Sportello studenti ed orientamento
それが言いますfindAllメソッドでtext=True
を使用すると、私の正規表現は無視されます。どうして?それをどうすれば解決できますか?
PyQueryは本当にクールな選択肢のように聞こえます:http://pypi.python.org/pypi/pyquery –