私はPiography Webサイトからいくつかの記事を抽出する必要があります。BeautifulSoupを使用してhtmlページからリンクを抽出してください
soこのページからhttp://www.biography.com/peopleすべてのサブリンクが必要です。例えば :
/people/ryan-seacrest-21095899
/people/edgar-allan-poe-9443160
が、私は二つの問題があります:私はすべての<>見つけようとしていたときに
1-。私は必要なhrefを見つけることができませんでした。
import urllib2
from BeautifulSoup import BeautifulSoup
url = "http://www.biography.com/people"
text = urllib2.urlopen(url).read()
soup = BeautifulSoup(text)
divs = soup.findAll('a')
for div in divs:
print(div)
2「もっと見る」ボタンがあります。私はどのようにしてウェブサイトのすべての人々のためのすべてのリンクを取ることができます。最初のページに表示されるだけではありませんか?
これは、私が必要とする正確には –