2016-10-18 6 views
1

ウェブサイトからコンテンツをダウンロードしてrichTextBoxに配置する必要があります。問題は、コンテンツをダウンロードして正規表現を使用してフィルタすると、壊れたテキストが表示されることです。どのように私はそれを修正することができます。以下は私のコードです:ウェブサイトからデータをダウンロードした後に壊れたテキスト

String website = "https://www.basketnews.lt/news-102294-nba-klubu-vadovai-finalas-nesikeis-mvp-iskovos-jamesas.html"; 

MyWebClient webClientObj = new MyWebClient(); 
webClientObj.Encoding = System.Text.Encoding.UTF8; 
String data = webClientObj.DownloadString(website); 

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); 
doc.LoadHtml(data); 

foreach (HtmlAgilityPack.HtmlNode node2 in doc.DocumentNode.SelectNodes("//div[@class= 'text']//p")) 
{ 
    string content = node2.InnerText; 
    this.richTextBox1.AppendText('\t' + content + '\n'); 
} 

私はそれが見えるようにしたい方法:

Desktop app with Richtext box with extracted text from the page - wrong

+3

あなたは改行の意味での「壊れた」意味ですか出力の例を与えると期待される出力 –

+0

に比べて? richtextboxのwordwrapプロパティをfalseに設定します。 – dlatikay

+0

私は、それがhtmlエンティティであることを知っています – Theraot

答えて

2

テキストをHTMLエンコード含まれています

Desktop app with Richtext box with extracted text from the page - expected

現在、それはこのようになります部品。 HtmlDecodeを通してそれを実行します。

var content = System.Web.HttpUtility.HtmlDecode(node2.innerText); 
関連する問題