次のコードJavaのバグ?なぜutf8エンコーディングで余分なゼロバイトですか?
public class CharsetProblem {
public static void main(String[] args) {
//String str = "aaaaaaaaa";
String str = "aaaaaaaaaa";
Charset cs1 = Charset.forName("ASCII");
Charset cs2 = Charset.forName("utf8");
System.out.println(toHex(cs1.encode(str).array()));
System.out.println(toHex(cs2.encode(str).array()));
}
public static String toHex(byte[] outputBytes) {
StringBuilder builder = new StringBuilder();
for(int i=0; i<outputBytes.length; ++i) {
builder.append(String.format("%02x", outputBytes[i]));
}
return builder.toString();
}
}
戻り
61616161616161616161
6161616161616161616100
すなわちUTF8エンコーディングは、過剰バイトを返します。より少ないa-sを取るならば、余分なバイトはありません。より多くのa-sを取ると、余分なバイトが増えます。
なぜですか?
これをどのように回避できますか?