背景情報: 私は定期的に(LINQを使用して)XML文書から単一の文字列にカプセル化したテキストを大量に持っています。この文字列には、出力目的で保存する必要があるHTMLがたくさん含まれていますが、この文字列で時々発生する電子メールと個別のHTMLリンクを削除する必要があります。問題のあるテキストの例は次のようになります。LINQまたはC#を使用して文字列から特定のHTMLをサニタイズするアルゴリズム
--<a href="mailto:[email protected]" target="_blank">John Smith</a> from <a href="http://www.agenericwebsite.com" target="_blank">Romanesque Architecture</a></p>
私が行うことができるように必要なものです:
- 次の文字列を検索します。
<a href
- は、その文字列とそれに続くすべての文字を削除します。
>
- また、文字列によって、常にこの文字列を削除
</a>
これを簡単に行うことができるLINQの方法はありますか、これを実現するには.NETの文字列操作を使用してアルゴリズムを作成する必要がありますか?
HTML敏捷性パックを –
なぜあなたはLINQを使いたいのですか?これは正規表現/文字列の操作がはるかに単純になるように見えます –
+1 @AustinSalonen HTMLの処理に関する質問に対する唯一の答えです! HTMLと正規表現は起こるのを待っている事故です。そして、私は正規表現が好きです:) – Goran