ファイルからUTF-8文字をバイトとして読み取る方法は？

ファイルからUTF-8文字をバイトとして読み取ることができません。バイトから文字に変換する際に、UTF-8文字がquestionmarak（？）として表示されています。ファイルからUTF-8文字をバイトとして読み取る方法は？

以下のコードスニペットは、ファイルの読み取りを示しています。

ファイルからUTF-8チャンネルをどのように読み取ることができるか教えてください。とplzバイト配列の読み取りプロセスの問題は何ですか？

public static void getData { 

    FormFile file = actionForm.getFile("UTF-8"); 

    byte[] mybt; 
    try 
    { 

       byte[] fileContents = file.getFileData(); 
     StringBuffer sb = new StringBuffer(); 
     for(int i=0;i<fileContents.length;i++){ 
      sb.append((char)fileContents[i]); 
     } 
     System.out.println(sb.toString()); 
    } catch (UnsupportedEncodingException e) { 
     e.printStackTrace(); 
    } 
    } 

Output ::??Docum??ents (input file content is : "ÞDocumÿents" , it contains some spanish characters.)

出典

2011-08-09 Satya

これは問題です：

for(int i=0;i<fileContents.length;i++){ 
    sb.append((char)fileContents[i]); 
}

あなたはそれをキャストすることによってchar型に各バイトを変換しています。それは効果的にISO-Latin-1を使用しています。

をInputStreamから読み取るには、文字エンコードを指定してInputStreamReaderに変更します。

文字列にファイル全体を読み込む最も簡単な方法は、Guavaを使用することです：

String text = Files.toString(file, Charsets.UTF_8);

またはバイト配列に変換する：

String text = new String(fileContents, "UTF-8");

出典

2011-08-09 12:00:32

キャストが実際に変換されないだろうUTF-16コードユニットへのchar？ –

@Vineet：いいえ、 'char' *は* UTF-16コード単位です。そのバイトの値を取ってUTF-16コード単位として解釈するだけで、*バイトから変換します。これは基本的にISO-8859-1の機能です。バイト0-255をU + 0000にU + 00FFにマップします。 –

ああ、あなたは正しい。私はStringBufferとバイト配列の間で混乱しています。 –

ファイルからUTF-8文字をバイトとして読み取る方法は？

答えて

関連する問題