2017-03-01 5 views
-1

私は以下のようにhtmlテキストの文字列を持っています。C#を使用したHTML文字列の解析

string htmlText = "<h1>This is heading 1</h1><p>This is some text.</p> 
<hr><h2>This is heading 2</h2><p>This is some other text.</p><hr>"; 

我々は、ブラウザでそれを見ると、後で私たちが今までに必要な、この解析された文字列を使用できるように、それが解析された後、我々は、このHTML文字列を変換することができます。

後でこのデータを共有ポイントリストの複数行のリッチテキスト列にコピーします。そこでは、これらのタグは必要ありませんが、

+0

まさにあなたが解析されたテキストで表示したいのですか? 「ブラウザで見るとどういう意味ですか?」 –

+0

HtmlAgilityPackをご覧ください – john

+0

[Html Agility PackでHTMLからすべてのテキストを取得](http://stackoverflow.com/questions/4182594/grab-all-text-from-html-with-html-agility-pack) –

答えて

-1

最も良い方法は、htmlタグ いくつかの内部の次の抽出に正規表現を使用しています。このかもしれないような何かがない仕事: (。??(+)< /h.?>)+((.+)</P>)

0

This answerは、はるかにあるHtmlAgilityPackを使用して、例を提供します。?独自の構文解析や正規表現を使用するよりも堅牢です。

XPATHはあなたの友達です:)

HtmlDocument doc = new HtmlDocument(); 
doc.LoadHtml(@"<html><body><p>foo <a href='http://www.example.com'>bar</a> baz</p></body></html>"); 

foreach(HtmlNode node in doc.DocumentNode.SelectNodes("//text()")) 
{ 
    Console.WriteLine("text=" + node.InnerText); 
} 
関連する問題