からグラブ内部リンクは、私はしかし、私はページ上の内部リンクをたどるにしようとしています、私はurllib2.urlopenで取得したページのリンクを探すための基本的なループを持っている...PythonのBeautifulSoup - ページ
どれでも私の下のループを同じドメインにあるリンクだけにする方法
for tag in soupan.findAll('a', attrs={'href': re.compile("^http://")}):
webpage = urllib2.urlopen(tag['href']).read()
print 'Deep crawl ----> ' +str(tag['href'])
try:
code-to-look-for-some-data...
except Exception, e:
print e
私はそれを私のループに実装する方法を理解していませんが、私はロジックを見ています:)それをループに実装する方法は分かりますか? – user1213488
あなたはこれを好きですか? – User
あなたは 're'を全く使わないと言っていますが、' http:// whatever'と '(no http://)'にマッチする正規表現を思いつくことができます。 – jadkik94