HTMLのIMGSを解析するために、私は、IMGのSRCSとのhrefを抽出したいです。特定のサイトで正規表現は、私はHTMLページを介してクロールしてい
、それらのすべてを二重引用符でカプセル化されています。
私はさまざまな正規表現を試しましたが、成功しませんでした。
re.search(r'img\s+src="(?P<src>[\w-/]+_"', line)
doesnの」:([-ZA-Zの\ D-_]印字可能な文字及び/および。) - [W/\]
Pythonで二重引用符内の文字であると仮定トン何かを返しますが、
re.search(r'img\s+src="(?P[-\w[/]]+)"', line)
返します(つまり、 "で停止しません)くらいにwayy。
私は右の正規表現の作成を支援する必要があります。事前に感謝!
必須:http://stackoverflow.com/a/1732454/350351 – Daenyth
真、正規表現でHTMLを解析することはできませんが、その中に特定のものを見つけることができ、かつ迅速なスクリプトなどのために、それは適切なツールかもしれません。 – OlliM
@Daenyth、はい、私はそれを知っています。私は定期的かつ文脈自由な文法のために、多くの人々にポンピング補題を教えてきました。私が見つけようとしている正規表現は、タグの内部のフィールドであり、これは最も確かに規則的です。 –