2016-08-10 22 views
0

以下のコードでは、シンボル文字列re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread)の各要素は何を意味していますか?Python web scraping、記号意味

import urllib2 
import re 

htmltext = urllib2.urlopen("https://en.wikipedia.org/wiki/Linkin_Park") 
htmlread = htmltext.read() 
htmlread = re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread) 
regex = '(?<=Linkin Park was founded)(.*)(?=the following year.)' 
pattern = re.compile(regex) 
htmlread = re.findall(pattern, htmlread) 
print "Linkin Park was founded" + htmlread[0] + "the following year." 
+1

http://stackoverflow.com/questions/22937618/についての詳細をお読みください参照 - 何をする - これ - 正規表現 - 平均 –

答えて

0

htmlread = re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread)<> OR

  • 改行間

    • 発現のいずれかを除去
    • ブラケットまたは空ブラケットhtmlreadから

    間の数

    ここ

    興味深いウィキポスト:Reference - What does this regex mean?

  • 0

    は、「」とのすべての文字を置き換えhtmlread変数

    からそれを削除する意味正規表現

    関連する問題