2017-11-24 10 views
1

私は何かがひどく不足しているので、私はいくつかの助けを求めることにしました。xml 1.0のHTML絵文字を削除する

私はxml ISOが不正な文字でエンコードされています。エスケープされたhtml(例:�� (ここにスペースを&、&#1 xd83d後、�

私の最初の考えはしたので、次は、それらをアンエスケープと何も変わっていない

string test = @"��"; 
var outText = HttpUtility.HtmlDecode(test); 

XMLをきれいにする多くの正規表現のいずれかを使用?

 Encoding iso = Encoding.GetEncoding("ISO-8859-1"); 
     Encoding utf8 = Encoding.UTF8; 

     byte[] isoBytes = iso.GetBytes(Message); 
     byte[] utfBytes = Encoding.Convert(iso, utf8 , isoBytes); 
     string str = Encoding.UTF8.GetString(utfBytes); 

は私が間違ってやっている何バイトとしてこれを読むためにしてみてください

+0

私はこれを正しく理解していますか?無効なエンティティを含むかなり大きな 'html'ファイルがありますか?あなたは何を望みますか:無効なエンティティを「修理」して取り除き、取り替えますか?これは、1つまたは2つの壊れた*エンティティと期待される出力を持つ小さな 'html'サンプルを表示するのに役立ちます。 – Shnugo

+0

XML 1.0で書かれているデータベースのダンプ(HTMLページが入っています)ですが、無効なXMLです...それらを削除して、それをやり直したいと思います。 – Pasiasty2077

+0

申し訳ありませんが、まだクリアされていません... A *データベースのダンプ*?文字のちょうど(バイナリ)束?これが 'NVARCHAR'として保存されている場合、空白になります。他の文字は2バイトとして表示されます...例を示してください... – Shnugo

答えて

0

あなたが使用できる正規表現:

+0

しかし、キャリッジリターン&#xdなどの有効なXML文字も削除されますか?私たちは数GBの重さを持つXMLについて話しているので、削除されたものをテストする機会はありません – Pasiasty2077

関連する問題