Pythonで<a hrefタグ内のデータをgrapする方法BeautifulSoup

-1

Python 2.7.12で問題が発生し、いくつかのWebページデータをスクラップするためにBeautifulSoupを使用していましたが、特定の 'title ='タグ<a href link </a>Pythonで<a hrefタグ内のデータをgrapする方法BeautifulSoup

以内に今まで私は、このコードで出力を得る：

<a href="/da/player/123/lionel-messi/" title="Lionel Messi">Lionel Messi</a>

は誰でも仕様を得るために私を助けてくださいでした：

import urllib2 
    from bs4 import BeautifulSoup 

    hdr = {'Accept': 'text/html,application/xhtml+xml,*/*',"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36"} 
    url = 'REMOVED' 

    req=urllib2.Request(url,headers=hdr) 
    urllib2.urlopen(url).read() 
    html = urllib2.urlopen(req).read() 
    soup=BeautifulSoup(html,"html5lib") 

    players = soup.find_all("td", {"data-title": "Navn"}) 

    player_data = "" 
    saveFile = open('player_data.txt','w') 

for item in players: 

    player_data = item.contents[0].encode("utf-8") 
    print player_data 
    saveFile.write (player_data) 

saveFile.close()

私はこの形式でのデータの行を取得します

players = soup.find('a')['title']

：「タイトル=」私はちょうどそれが...事前に

おかげで作業ように見えることはできません:)

出典

2016-07-28 BulletEyeDK

をtitle属性を取得HREFタグを見つけること私はこの問題に2日間執着していました。そして、私はこれを読んで、これに多くの試みをしました。また、stackoverflowからの同様の質問でも、私の問題と似た別の質問は見られませんでした。。元の質問に私をリンクしてください、ありがとう;） - おそらく、これはPythonの長年の経験を克服するのはかなり簡単ですが、 t :) – BulletEyeDK

hrefのコードからタイトルを取得するためにから名前IFIC 出力：

Lionel Messi

soup.find('a')['title']は何？

.find('a') Pythonプログラミングにイムかなり新しい...あなたはそれが重複だと思う場合
['title]手段はまあ、イム申し訳ありませんタグから

出典

2016-07-28 19:43:36

あなたのコメントをありがとう、どういうわけか...私はまだそれを働かせて、申し訳ありませんが、私は非常に新鮮なpythonを使って作業する方法を理解できません...私は "ワンライナー"コードでこれを解決することはできますか私の実際のコード行では：players = soup.find_all（ "td"、{"data-title"： "Navn"}）これはそこに存在する必要があります...そうでなければ、 – BulletEyeDK

正確なコード行を実行すると、次のようなエラーが表示されます：TypeError： 'NoneType'オブジェクトは反復不可能です – BulletEyeDK

有用な情報をお寄せいただきありがとうございます。 "utf-8"） 'コード' 'ありがとう;） – BulletEyeDK

Pythonで<a hrefタグ内のデータをgrapする方法BeautifulSoup

答えて

関連する問題