私は、brまたはspan .../spanタグまたは他のHTML文字/エンティティを含む可能性のある文字列を持っています。私はそれをすべて取り除き、残りのUTF-8文字を得る堅牢な方法が必要です。これは理想的にはクロスプラットフォームでなければなりません。このようなC++:文字列からすべてのHTML書式を削除しますか?
何かが理想的である:
http://snipplr.com/view/15261/python-decode-and-strip-html-entites-to-unicode/
が、それはまた、タグを削除します。
は注意することは属性が含まれている可能性があるため、より多くの状態を ">"、必要とされています。 – strager
それは本当です。だから私は彼の要求がどれほど厳しいか尋ねました。タグ内の '>'はかなりありそうもないが、確かに起こりうる。同様に、不正な形式のHTMLに対処したり、特定のタグに対して特別な処理を行う必要がある場合は、アルゴリズムを複雑にする必要があります。 –
OPは、「人間が期待するように動作し、すべての場合において標準を完全に理解していると仮定すると、おそらく動作する」という意味の「ロバスト」を示しています。したがって、属性内の ">"は処理する必要があります。 – strager