2012-01-09 8 views
-1

楕円、引用符、長いハイフン、アポストラプス、上付き文字、下付き文字などの多くの文字は、Webページを送信するときに間違ってボックスや奇妙な文字としてエンコードされます。これらの文字をチェックする正規表現を作成します。エスケープされていない文字を確認する正規表現

私たちが引用符、楕円、または箇条書きのようなものを提出すると、それらはWebページ上に大きな正方形として表示されるか、エスケープされ、$ &のような制御文字列になります& $。 そのような四角形、制御シーケンス、およびその他の変なユニコード文字タイプを見つけたり、チェックしたりしたいと考えています。

だから、これらすべてをチェックする正規表現が必要です。あるいは、私たちが従うべき他の方法やアプローチがありますか?

+0

regexを使用してテキストの検証を行っている場合は、すべての文字を検証しないでください。受け入れ可能な文字をフィルタリングし、他のすべてを許可しない。 [a-zA-Z0-9_-]と他には許可したい文字はありません。 – Barka

+0

'これらの文字をチェックする正規表現を作成する必要があります。 @Veronicaは言ったように、おそらくエンコードの問題です。 Regexを使用する前にそのように修正しよう –

答えて

1

四角形の外観は、読み込みに使用するエンコーディングによって異なります。 ASCIIエンコーディングを使用している場合は、文字の代わりに四角形が表示されます。

0

英数字と数字を制限し、アンダースコアとダッシュのようにする場合は、他の文字を置き換えるか、削除することができます。

@"[^a-zA-Z0-9_-]" 

これは、Z、A〜Z、0〜9、 - 、_には対応しないすべての文字に一致する正規表現です。

他のすべての文字は、たとえばアンダースコアで置き換えることはできません。

string newStringParsed = Regex.Replace(stringToParse, @"[^a-zA-Z0-9_-]", "_"); 
関連する問題