2016-03-28 19 views
2

このhtmlテーブルの送信者と受信者のアドレスを個別に抽出する方法について、誰かが正しい方向で私を指摘できますか?私はたくさんのネストされたタグを検索する方法についてのドキュメントを掘ることはありません..言い換えれば、私は次のようになる必要があります:soupy.select('td[style="color: \#99999"]とコンテンツ= SENDER ..次の<a>タグを見て、 '私はこの笑を明確にする方法を知りません。Python Beautifulsoup4:

 <td style="color: #999999;">SENDER:</td> 
     <td colspan="3"> 
      <a class="uSearch" style="color: #000000" href="#" onclick="parent.eSearch('sender_match', 'match_is', 'sndr', '[email protected]')">[email protected]</a> 
     </td> 

     <td style="color: #999999;">RECIPIENT:</td> 
     <td> 
      <a class="uSearch" style="color: #000000" href="#" onclick "parent.eSearch('recipient_match', 'match_is', 'rcpt', '[email protected]')">[email protected]</a> 
     </td> 

答えて

3

テキストでtdを見つけてnext sibling取得する:あなたが "送信者" を含むようにonclickをチェックすることで、送信者のリンクに直接行くことができます

sender = soup.find("td", text="SENDER:") 
print(sender.find_next_sibling("td").get_text(strip=True)) 

注:

print(soup.select_one("a[onclick*=sender]").get_text(strip=True)) 
関連する問題