私は次の文字列があるとします。のfindAll()の挙動(のpython 2.7)
"<p>Hello</p>NOT<p>World</p>"
を、私は私が仕事
ための次のスクリプトを作成した単語Hello
と
World
を抽出したいです
#!/usr/bin/env python
import re
string = "<p>Hello</p>NOT<p>World</p>"
match = re.findall(r"(<p>[\w\W]+</p>)", string)
print match
私は特に< p>と</p>を取り除くことに興味はありませんので、スクリプト内でそれをやっていることは決してありませんでした。
インタプリタプリント
ので、明らかに最初< Pを見>と最後</P>タグの間には無視しています。 findall()
すべての3つの一致する文字列を返すべきではありませんか? (それが印刷する文字列と2つの単語)。
もしそうでなければ、どうすればコードを変更できますか?
PS:これはプロジェクト用で、私は私が必要としていることをするための代替方法を見つけました。これは私が推測する教育的理由によるものです。
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – BrenBarn