私はコードベースを引き継いでいます。私はこれらのhtmlファイルをマイクロソフトワードで作成したものを読まなければなりません。programaticallyすべてのhtmlとインラインの書式を削除する
とにかく、すべての悪いインラインフォーマットを解析し、このストリームからテキストを取得するだけです。私は基本的に清浄器がプログラム的に欲しいので、賢明なCSSを適用することができます
私はコードベースを引き継いでいます。私はこれらのhtmlファイルをマイクロソフトワードで作成したものを読まなければなりません。programaticallyすべてのhtmlとインラインの書式を削除する
とにかく、すべての悪いインラインフォーマットを解析し、このストリームからテキストを取得するだけです。私は基本的に清浄器がプログラム的に欲しいので、賢明なCSSを適用することができます
私はちょうどfindと置き換えの束をした小さなクラスを書いた。きれいではないが効果があった。
HTML Tidyを使用する必要があります.HTMLのクレンジングに関しては一意です。 article on DevX that describes how to do it from .NETがあります。