UnicodeEncodeError： 'latin-1'コーデックは0〜5桁の文字をエンコードできません：序数は範囲外です（256）

みんな！私はのpython3（pycharm）を使用して、私のコードは、これらのようなものです：私はいくつかの中国語の単語のtest.CSVである場合UnicodeEncodeError： 'latin-1'コーデックは0〜5桁の文字をエンコードできません：序数は範囲外です（256）

# -*- coding: utf-8 -*- 
import numpy 

c=numpy.loadtxt('test.csv',dtype="str_",delimiter=',',usecols=(6,),unpack=True)

は、私が得た、このようなエラー：私は試してみました

UnicodeEncodeError: 'latin-1' codec can't encode characters in position 0-5: ordinal not in range(256)

このように、ファイルをエンコードするために：

IndexError: list index out of range

012：その後、

c=numpy.loadtxt('test.csv'.encode('utf-8'),dtype="str_",skiprows=0,delimiter=',',usecols=(6,),unpack=True)

とを、私は別のエラーが発生しました

また、ファイル内の中国語の単語が64

よりも長く、私はこれに多くの時間を無駄に持って、私の手を教えてください！

出典

2016-07-27 Robin

我々はに漢字を読んだときnumpyの場合、UTF-8文字を保持するのに十分な長さではないASCII文字として扱われるため、データ型は単純な文字列にはなりません。

私がここでやったことは、ユニコード文字を保持するのに十分である代わりに4バイト文字を読み込んでいることをnumpyに知らせることです。

私はテストのために次のサンプルデータを使用しています

# -*- coding: utf-8 -*- 
import numpy 
c=numpy.genfromtxt('test.csv',dtype="S4",delimiter=',',usecols=(6,),unpack=True) 

for txt in c: 
    print(txt.decode("utf-8"))

あなたはさらに多くを学ぶために、以下のリンクを確認することができます：
1ここで

1,2,3,4,5,6,7 
一,二,三,四,五,六,七

は、私が使用しているコードです。 How many bytes does one Unicode character take?

出典

2016-07-27 04:29:51

私のCSVでは、7を読むことはできますが、七を読むことはできません。 'utf-8'コーデックは、位置0のバイト0xd5をデコードできません：無効な継続バイト ' – Robin

こんにちは、Robin、あなたのテストCSVファイルのコンテンツを共有しますか？ –

ところで、テスト用のCSVをutf-8形式で保存しましたか？ –

with open('test.csv', encoding='utf-8') as fh: 
    numpy.loadtxt(fh, dtype="str_", delimiter=',', usecols=(6,), unpack=True)

出典

2016-07-27 04:23:21

ここで新しいエラーがあります。 'UnicodeDecodeError：' utf-8 'コーデックは、位置0のバイト0xceをデコードできません：無効継続バイト' – Robin

UnicodeEncodeError： 'latin-1'コーデックは0〜5桁の文字をエンコードできません：序数は範囲外です（256）

答えて

関連する問題