2016-11-10 9 views
0

C#に次のコードがあり、Webページの内容を取得して文字列変数に格納します。
C#を使用したWebリクエストからのhtmlコンテンツの削除

WebRequest request = WebRequest.Create("http://www.arsenal.com"); 
WebResponse response = request.GetResponse(); 
Stream data = response.GetResponseStream(); 
string html = String.Empty; 
using (StreamReader sr = new StreamReader(data)) 
{ 
    html = sr.ReadToEnd(); 
} 

コードが正常に動作しますが、mが、私はhtmlタグとJavascriptものせずにページのコンテンツを格納する必要があります。そうするための方法はありますか(組み込みの方法やそのようなものの準備ができているもの)ですか?
実際には、htmlタグを削除する方法がいくつか見つかりましたが、JavascriptCSSのスタイルはまだ変わりません。 htmlを削除する方法もうまくいきません。正規表現を使用しています。

+0

ライブラリを検索してください。あなた自身で何かを書こうとすると、あなたは痛みの世界に入るでしょう。おそらくこれを投稿する良い時期です:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – GrandMasterFlush

+0

@GrandMasterFlush私もライブラリを探していましたが、何も見つけられません – Media

+0

http://stackoverflow.com/questions/56107/what-is-the-best-way-to-parse-html-in-c見てみる価値があるかもしれません。以前はHTMLAgilityパックを使用しました。 – GrandMasterFlush

答えて

2

this questionが示唆するように、それはHTMLを解析するトリッキーなプロセスです。最良の方法はライブラリを使用することです。

私はHTML Agility Packを使用しました。これまでにいくつかの成功例がありましたが、this questionにはいくつかのオプションがあります。

関連する問題