以下のコードでは、シンボル文字列re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread)
の各要素は何を意味していますか?Python web scraping、記号意味
import urllib2
import re
htmltext = urllib2.urlopen("https://en.wikipedia.org/wiki/Linkin_Park")
htmlread = htmltext.read()
htmlread = re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread)
regex = '(?<=Linkin Park was founded)(.*)(?=the following year.)'
pattern = re.compile(regex)
htmlread = re.findall(pattern, htmlread)
print "Linkin Park was founded" + htmlread[0] + "the following year."
http://stackoverflow.com/questions/22937618/についての詳細をお読みください参照 - 何をする - これ - 正規表現 - 平均 –