私はマルチバイト文字とその使用方法を調べていましたが、マルチバイトごとにいくつの異なる識別子/パスが使用されているか調べていました。マルチバイト識別子リスト
例えば:&nbps;
、&#nbsp;
、U+0026
、%20
どのようにこのような多くの&
、&#
、u+
、%
などのように異なる識別子があるのですか?
イムは、255文字以上の長さの単語を持っていて、おそらくマルチバイト(ハックの試行)の単語を持っていて、次に単語を分割できるかどうかを調べるために入力を探します。ハックの試み。
検索、これらのほとんどを説明する必要があります。 nbsp;はどこにありますか?それは法的なHTMLエンティティではありません。たぶんあなたは<のようなものを意味するかもしれません。 – Merijn
これは、どのエンジンが文字列を解析するかによってまったく異なります。私はこれのための一般的な "ハック検出"ソリューションを構築することは意味がないと思う。 –
申し訳ありませんが、あなたの質問は不明です。 ' 'または '&#x0026'はHTML/XMLエンティティと呼ばれ、'%20'はURIエスケープシーケンスです。あなたは何をマルチバイトと呼びますか、何をしたいですか? – Benoit