私は何かがひどく不足しているので、私はいくつかの助けを求めることにしました。xml 1.0のHTML絵文字を削除する
私はxml ISOが不正な文字でエンコードされています。エスケープされたhtml(例:�� (ここにスペースを&、&#1 xd83d後、�
私の最初の考えはしたので、次は、それらをアンエスケープと何も変わっていない
string test = @"��";
var outText = HttpUtility.HtmlDecode(test);
XMLをきれいにする多くの正規表現のいずれかを使用?
Encoding iso = Encoding.GetEncoding("ISO-8859-1");
Encoding utf8 = Encoding.UTF8;
byte[] isoBytes = iso.GetBytes(Message);
byte[] utfBytes = Encoding.Convert(iso, utf8 , isoBytes);
string str = Encoding.UTF8.GetString(utfBytes);
は私が間違ってやっている何バイトとしてこれを読むためにしてみてください
私はこれを正しく理解していますか?無効なエンティティを含むかなり大きな 'html'ファイルがありますか?あなたは何を望みますか:無効なエンティティを「修理」して取り除き、取り替えますか?これは、1つまたは2つの壊れた*エンティティと期待される出力を持つ小さな 'html'サンプルを表示するのに役立ちます。 – Shnugo
XML 1.0で書かれているデータベースのダンプ(HTMLページが入っています)ですが、無効なXMLです...それらを削除して、それをやり直したいと思います。 – Pasiasty2077
申し訳ありませんが、まだクリアされていません... A *データベースのダンプ*?文字のちょうど(バイナリ)束?これが 'NVARCHAR'として保存されている場合、空白になります。他の文字は2バイトとして表示されます...例を示してください... – Shnugo