2017-05-29 14 views
0
<a href="/realDonaldTrump/status/868985285207629825" class="tweet-timestamp js-permalink js-nav js-tooltip" data-original-title="5:20 PM - 28 May 2017"></a> 

url = "https://twitter.com/realDonaldTrump? 
ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor" 
r = requests.get(url) 

soup = BeautifulSoup(r.content, "html.parser") 

links = soup.find_all('a') 
for link in soup.find_all('a'): 
print(link.text, link.get('href')) 

htmlから 'href'タグを取得するのに問題があります。このコードは、 "/ realDonaldTrump/status/868985285207629825"であることを除いて、他のすべての 'href'を検索する際に機能します。私は 'data-original-title'タグも取得したいと思います。助けや提案?Python - BeautifulSoupを使用して<a>タブからデータを取得

+0

何を取得していますか? – Nabin

+0

またインデントが間違っているように見える – Nabin

+0

インデントは私のコードとは異なります。私は私が望むものの上にあるすべてのhrefを得ています。 – NewbieCoder

答えて

0
import requests 
from bs4 import BeautifulSoup  
url = "https://twitter.com/realDonaldTrump?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor" 
r = requests.get(url) 

soup = BeautifulSoup(r.content, "html.parser") 

links = soup.find_all('a', {'class':'tweet-timestamp js-permalink js-nav js-tooltip'}) 
for link in links: 
    try: 
     print(link['href']) 
     if link['data-original-title']: 
      print(link['data-original-title']) 
    except: 
     pass 
+0

こんにちは!あなたの助けのおかげで、私は受信したすべてだった: https://twitter.com https://twitter.com https://twitter.com/search-home https://twitter.com # ## ### ### ### ### ### ## # # # # # # # https://about.twitter.com/ https://support.twitter.com/ http://status.twitter.com/ – NewbieCoder

+0

それは出力しません私が望む価値。助けてくれてありがとう! – NewbieCoder

+0

恐ろしい!できます! – NewbieCoder

関連する問題