ウェブサイトからデータをダウンロードした後に壊れたテキスト

ウェブサイトからコンテンツをダウンロードしてrichTextBoxに配置する必要があります。問題は、コンテンツをダウンロードして正規表現を使用してフィルタすると、壊れたテキストが表示されることです。どのように私はそれを修正することができます。以下は私のコードです：ウェブサイトからデータをダウンロードした後に壊れたテキスト

String website = "https://www.basketnews.lt/news-102294-nba-klubu-vadovai-finalas-nesikeis-mvp-iskovos-jamesas.html"; 

MyWebClient webClientObj = new MyWebClient(); 
webClientObj.Encoding = System.Text.Encoding.UTF8; 
String data = webClientObj.DownloadString(website); 

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); 
doc.LoadHtml(data); 

foreach (HtmlAgilityPack.HtmlNode node2 in doc.DocumentNode.SelectNodes("//div[@class= 'text']//p")) 
{ 
    string content = node2.InnerText; 
    this.richTextBox1.AppendText('\t' + content + '\n'); 
}

私はそれが見えるようにしたい方法：

出典

2016-10-18 user7038346

あなたは改行の意味での「壊れた」意味ですか出力の例を与えると期待される出力 –

に比べて？ richtextboxのwordwrapプロパティをfalseに設定します。 – dlatikay

私は、それがhtmlエンティティであることを知っています – Theraot

テキストをHTMLエンコード含まれています

現在、それはこのようになります部品。 HtmlDecodeを通してそれを実行します。

var content = System.Web.HttpUtility.HtmlDecode(node2.innerText);

出典

2016-10-18 19:08:18 dlatikay

ウェブサイトからデータをダウンロードした後に壊れたテキスト

答えて

関連する問題