0
C#
に次のコードがあり、Webページの内容を取得して文字列変数に格納します。
C#を使用したWebリクエストからのhtmlコンテンツの削除
WebRequest request = WebRequest.Create("http://www.arsenal.com");
WebResponse response = request.GetResponse();
Stream data = response.GetResponseStream();
string html = String.Empty;
using (StreamReader sr = new StreamReader(data))
{
html = sr.ReadToEnd();
}
コードが正常に動作しますが、mが、私はhtml
タグとJavascript
ものせずにページのコンテンツを格納する必要があります。そうするための方法はありますか(組み込みの方法やそのようなものの準備ができているもの)ですか?
実際には、html
タグを削除する方法がいくつか見つかりましたが、Javascript
とCSS
のスタイルはまだ変わりません。 html
を削除する方法もうまくいきません。正規表現を使用しています。
ライブラリを検索してください。あなた自身で何かを書こうとすると、あなたは痛みの世界に入るでしょう。おそらくこれを投稿する良い時期です:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – GrandMasterFlush
@GrandMasterFlush私もライブラリを探していましたが、何も見つけられません – Media
http://stackoverflow.com/questions/56107/what-is-the-best-way-to-parse-html-in-c見てみる価値があるかもしれません。以前はHTMLAgilityパックを使用しました。 – GrandMasterFlush