2009-05-11 10 views
3

ウェブサイトからテキストを取得するために、少しアルゴを作成しています。答えを見つけてください(完了したらスクリプトを投稿します)。HTMLをテキストに変換するDOT NETコード

これを行うには、すべてのHTMLコードを平易な読みやすい英語のテキストに変換する必要があります。

私は、すべてのHTMLタグを手動で削除したが、いくつかのCSSエントリは取り除くのは難しいです。 htmlをプレーンな英語のテキストに変換する方法に関する簡単なアイデアですか?

ありがとうございました。

+0

ことを行うために、私はプレーン読める英語のテキストに体及び/本体内のすべてのHTMLコードを変換する必要があります。 (本文が質問から削除されました) – Arjun

+0

タグを削除すると、CSSエントリが残っているはずです。たぶんあなたは取り除くのが難しいいくつかのサンプルを投稿することができますか? – Francis

+0

私は、前のコメントにCSSがないことを "ない"ことを意味します... – Francis

答えて

4

some oneはすでにあなたのためall the workを作りました。

+1

DOMを解析していないので、InnerTextを使う方が良いでしょうか? – okutane

+0

はい、有効なHTMLなら...有効なXMLを取得できません。たとえば、XMLとしてDOMを解析すると、「
」ではなく「
」というエラーがスローされます。あなたが100%確信しているなら、あなたは正しいHTMLを持っているでしょう。 – balexandre

0

私は正規表現のパフォーマンスの低下を回避似たような開発:strip_tags equivalent for ASP.NET(あまりにもデスクトップ.N​​ETアセンブリ上で実行することができます)

+0

+1は良い主題のために:) –

関連する問題