これは、エンコードされていると思われるようなMySQLデータベースからのエクスポートを与えられています。 & uuml;
など、同じ文字を表す問題のある文字は、ü
とÃ
です。いくつかの整合性をファイルに戻し、すべてを正しいラテン文字にすることは私の仕事です。 ú
およびó
。üとƒのような特殊文字をC#の元のラテンアルファベットの対応に戻します
私が扱っていた文字列の並べ替えの例では、方法はあります
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
と同じである必要があります
Flächen
DesinfektionslösungstücherfürですC#/ .Net 4.5で利用可能で、
ü
とÃ
のようなものをうまく再エンコードすることができますoUTF-8
?これ以外の方法はお勧めできますか?
上記の例の段落文字
¶
も実際の段落文字または他の文字の組み合わせの一部ですか?下記の検索と置換が必要な場合にルックアップテーブルを作成しましたが、どのように完全であるかはわかりません。
É -> É â€œ -> " †-> " Ç -> Ç Ãƒ -> à é, 'é à -> À ú -> ú • -> - Ø -> Ø Ãµ -> õ à -> í â -> â ã -> ã ê -> ê á -> á é -> é ó -> ó – -> – ç -> ç ª -> ª º -> º à -> à
Pedantryのポイント:「ü¼」と「ƒƒ」は「特殊文字」ではなく、** [Mojibake](https://en.wikipedia.org/wiki/Mojibake)**です。 – Boann
@Boann ped away ...面白い –
あなたの投稿が多少誤解を招いています。データを修復した後、私は 'DesinfektionslösungstücherfürFlächen'を得ました。これは正しいと思われますが、期待した結果にスペースがあります。 – Esailija