私はUTF-8文字列をchar*
として持っています。文字あたりの1バイトにつき1つのバイトをに取得するには、文字インデックスでランダムにアクセスできるようにするため、現在はすべてのUTF-8連続バイトを削除しています(静的に「適切な」変換を避けたいですバイト幅表現)。マルチバイトのUTF-8文字表現を1バイトに変換するにはどうすればいいですか?
の代わりに私が与えられたマルチバイトUTF-8文字は英数字(またはしない)であるかどうかを確認してから、対応するASCII文字に置き換えることができるようにしたいすべての連続バイトを削除する(のが英数字のためa
をしましょうとそれ以外の場合は.
)。これはどうすればいいですか?
現在の文字列のアルファベットは何ですか?それはいくつかの日本や中国やアジアからのいくつかの他の文字を持つことができますか? – Zimbabao
@Zimbabao:何でもかまいません(アルファベットはUnicode全体です)。 – hasseg