を長い間苦しんで、私は次のような形式に加工1つの入力に長い文字列を取得するために管理した後に - つのリスト:どのように私は今、効率的にすることができますのpython - タグを抽出し、HTMLから属性 - ハードな方法
['<', 'p', '>', '<', 'a', 'href', '>', '<', 'a', '>', '<', 'p', '>', '<', 'div', 'class', '>', '<', 'a', 'href', '>', '<', 'a', '>', '<', 'div', '>']
をし、ハードコーディング方法のプロセスでは、各HTMLタグとそれがカバーする属性をさらに取得するようにリストされていますか?
ようにした後、私はaがのhrefがあり、divがクラス属性を持ち、任意の属性を持っていないことのp を確認しますか?
'BeautifulSoup'が最初の場所ですか? – Jan
私は不思議です。なぜあなたはこれをする必要がありますか? – Vorticity
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?おそらく、手動でhtmlを解体しようとする代わりにパーサーを使用するでしょうか? –