HTMLをテキストに変換するDOT NETコード

ウェブサイトからテキストを取得するために、少しアルゴを作成しています。答えを見つけてください（完了したらスクリプトを投稿します）。HTMLをテキストに変換するDOT NETコード

これを行うには、すべてのHTMLコードを平易な読みやすい英語のテキストに変換する必要があります。

私は、すべてのHTMLタグを手動で削除したが、いくつかのCSSエントリは取り除くのは難しいです。 htmlをプレーンな英語のテキストに変換する方法に関する簡単なアイデアですか？

ありがとうございました。

2009-05-11 Arjun

ことを行うために、私はプレーン読める英語のテキストに体及び/本体内のすべてのHTMLコードを変換する必要があります。（本文が質問から削除されました） – Arjun

タグを削除すると、CSSエントリが残っているはずです。たぶんあなたは取り除くのが難しいいくつかのサンプルを投稿することができますか？ – Francis

私は、前のコメントにCSSがないことを "ない"ことを意味します... – Francis

some oneはすでにあなたのためall the workを作りました。

2009-05-11 06:30:18 balexandre

DOMを解析していないので、InnerTextを使う方が良いでしょうか？ – okutane

はい、有効なHTMLなら...有効なXMLを取得できません。たとえば、XMLとしてDOMを解析すると、「
」ではなく「
」というエラーがスローされます。あなたが100％確信しているなら、あなたは正しいHTMLを持っているでしょう。 – balexandre

私は正規表現のパフォーマンスの低下を回避似たような開発：strip_tags equivalent for ASP.NET（あまりにもデスクトップ.NETアセンブリ上で実行することができます）

2009-05-11 22:28:57

+1は良い主題のために:) –

答えて