Python 2.7.12で問題が発生し、いくつかのWebページデータをスクラップするためにBeautifulSoupを使用していましたが、特定の 'title ='タグ<a href link </a>
Pythonで<a hrefタグ内のデータをgrapする方法BeautifulSoup
以内に今まで私は、このコードで出力を得る:
<a href="/da/player/123/lionel-messi/" title="Lionel Messi">Lionel Messi</a>
は誰でも仕様を得るために私を助けてくださいでした:
import urllib2
from bs4 import BeautifulSoup
hdr = {'Accept': 'text/html,application/xhtml+xml,*/*',"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36"}
url = 'REMOVED'
req=urllib2.Request(url,headers=hdr)
urllib2.urlopen(url).read()
html = urllib2.urlopen(req).read()
soup=BeautifulSoup(html,"html5lib")
players = soup.find_all("td", {"data-title": "Navn"})
player_data = ""
saveFile = open('player_data.txt','w')
for item in players:
player_data = item.contents[0].encode("utf-8")
print player_data
saveFile.write (player_data)
saveFile.close()
私はこの形式でのデータの行を取得します
players = soup.find('a')['title']
:「タイトル=」私はちょうどそれが...事前に
おかげで作業ように見えることはできません:)
をtitle属性を取得HREFタグを見つけること私はこの問題に2日間執着していました。そして、私はこれを読んで、これに多くの試みをしました。また、stackoverflowからの同様の質問でも、私の問題と似た別の質問は見られませんでした。 。元の質問に私をリンクしてください、ありがとう;) - おそらく、これはPythonの長年の経験を克服するのはかなり簡単ですが、 t :) – BulletEyeDK