私は受け入れた回答hereを使用して、ユニコードからUTF-8コードユニットに「手動で」変換しました。問題は、結果のUTF-8がバイト配列に含まれている必要があることです。可能であれば、16進数から8進数へのシフト操作を使用することで、どうすればいいですか?シフト操作を使用してコードポイントをJavaのutf-8バイト配列に変換します
私が既に持っているコードは以下の通りです:
public static void main(String[] args)
throws UnsupportedEncodingException, CharacterCodingException {
String st = "ñ";
for (int i = 0; i < st.length(); i++) {
int unicode = st.charAt(i);
codepointToUTF8(unicode);
}
}
public static byte[] codepointToUTF8(int codepoint) {
byte[] hb = codepointToHexa(codepoint);
byte[] binaryUtf8 = null;
if (codepoint <= 0x7F) {
binaryUtf8 = parseRange(hb, 8);
} else if (codepoint <= 0x7FF) {
binaryUtf8 = parseRange(hb, 16);
} else if (codepoint <= 0xFFFF) {
binaryUtf8 = parseRange(hb, 24);
} else if (codepoint <= 0x1FFFFF) {
binaryUtf8 = parseRange(hb, 32);
}
byte[] utf8Codeunits = new byte[hexStr.length()];
for (int i = 0; i < hexStr.length(); i++) {
utf8Codeunits[i] = (byte) hexStr.charAt(i);
System.out.println(utf8Codeunits[i]); // prints 99 51 98 49,
// which is the same as c3b1, the UTF-8 for ñ
}
return binaryUtf8;
}
public static byte[] codepointToHexa(int codepoint) {
int n = codepoint;
int m;
List<Byte> list = new ArrayList<>();
while (n >= 16) {
m = n % 16;
n = n/16;
list.add((byte) m);
}
list.add((byte) n);
byte[] bytes = new byte[list.size()];
for (int i = list.size() - 1; i >= 0; i--) {
bytes[list.size() - i - 1] = list.get(i);
}
return bytes;
}
private static byte[] parseRange(byte[] hb, int length) {
byte[] binarybyte = new byte[length];
boolean[] filled = new boolean[length];
int index = 0;
if (length == 8) {
binarybyte[0] = 0;
filled[0] = true;
} else {
int cont = 0;
while (cont < length/8) {
filled[index] = true;
binarybyte[index++] = 1;
cont++;
}
binarybyte[index] = 0;
filled[index] = true;
index = 8;
while (index < length) {
filled[index] = true;
binarybyte[index++] = 1;
binarybyte[index] = 0;
filled[index] = true;
index += 7;
}
}
byte[] hbbinary = convertHexaArrayToBinaryArray(hb);
int hbindex = hbbinary.length - 1;
for (int i = length - 1; i >= 0; i--) {
if (!filled[i] && hbindex >= 0) {
// we fill it and advance the iterator
binarybyte[i] = hbbinary[hbindex];
hbindex--;
filled[i] = true;
} else if (!filled[i]) {
binarybyte[i] = 0;
filled[i] = true;
}
}
return binarybyte;
}
private static byte[] convertHexaArrayToBinaryArray(byte[] hb) {
byte[] binaryArray = new byte[hb.length * 4];
String aux = "";
for (int i = 0; i < hb.length; i++) {
aux = Integer.toBinaryString(hb[i]);
int length = aux.length();
// toBinaryString doesn't return a 4 bit string, so we fill it with 0s
// if length is not a multiple of 4
while (length % 4 != 0) {
length++;
aux = "0" + aux;
}
for (int j = 0; j < aux.length(); j++) {
binaryArray[i * 4 + j] = (byte) (aux.charAt(j) - '0');
}
}
return binaryArray;
}
私は適切にバイトを処理する方法がわからないので、私は私がした事は、おそらく間違っていることを知っています。次のように
この宿題はありますか? 'String.getBytes(" UTF-8 ")'を使って結果を確認することができます。そしてWikipediaはビットパターン10xxxxxxなどを表示します。マスキングとシフトは魔法ではありません。 –
いいえ、それは宿題ではありません。私は個人的なプロジェクトのためにコンバーターが必要であり、私はそれが効率的であることを望んでいます。私はビットパターンを知っている、彼らは私が引用したリンクにあるので。しかし、私は望む結果を得るために何をシフトさせるべきか(いつ行うのか)はわかりません。 – randombee
...ええ、その宿題。証明された、テストされた、容易に利用可能なJREメソッドよりも「効率的」であることを望むのは、ちょっと重複しており、運動のように非常に匂いがします。おそらく大学の試験 - ITの学生は、車を再発明することはすごいことだと言われます。今日は...彼らのキャリアにとって恐ろしいですが、実装の詳細についての無駄な深い知識があるのか不思議です。 – specializt