私が指定したもの以外の文字列からすべてのhtmlタグを取り除きたい。 私はすべてが正常に動作しますデフォルト値でコンストラクタを呼び出す場合:ストリップhtmlタグ - lxml.html.clean.clean_htmlが期待どおりに動作しない
>>> cleaner = lxml.html.clean.Cleaner()
>>> cleaner.clean_html('''<i>italic</i><script>alert('');</script>''')
'<span><i>italic</i></span>'
しかし、私はいくつかのタグを指定しようとすると、物事はもう動作しません:
>>> allowed_tags = ['i','s']
>>> cleaner = lxml.html.clean.Cleaner(remove_unknown_tags=False,allow_tags=allowed_tags)
>>> cleaner.clean_html('''<i>italic</i><s>strike</s>''')
'<span></span>'
は、だから私は間違って何をやっていますか?