2012-03-31 9 views
0

基本的に私はCSSとJavaScriptが埋め込まれたWebページを持っているので、テキストからテーブル、イメージなど、HTML自体は抽出しません。C#抽出htmlのみ

これまでのところ、私は全体のWebページを "html"と呼ばれる文字列に格納していますが、このページの内容は単にfacebookのhompepageですが、あなたが見るように、スクリプトやその他の埋め込まれたものはありませんほしい。

HTMLEdit = //webpage I chose to store in here// 
    string html = HTMLEdit.DocumentText; 
    String result = "this i want to only contain the <head>,<body>,<foot>." 

私は結果の魔女はHTMLのみが含まれている表示で唯一興味を持って、私はJavaScriptやCSSや他のものに

を望んでいない私は、敏捷性パックを見てきましたが、そこには何のドキュメントはありませんこれを行うウェブサイトとこれは私が作ることにした私の初めてのC#プロジェクトなので、もし意味がないなら私の無知を許してください。

答えて

2

この質問 HTML Agility Pack strip tags NOT IN whitelist

はたぶんその答えを合わせると、リンクやスクリプトタグをドロップします参照してください。

+0

正規表現を使用してタグを削除しましたか、タグを別の文字列にプッシュすることはできますか?このライブラリーの使用を避けようとしています – joshua

+0

リンクをチェックして、そのページでソリューションとリソースを利用できなくなったので、これは問題ありませんでした – joshua

関連する問題