2016-09-03 5 views
0

漢字を含む列がある(他の列は英語と数字です)csvファイルを読むことができます。ただし、中国語の文字は正しく表示されません。私はpd.read_csv()でcsvファイルをロードしパンダのデータフレーム内に漢字を表示する方法は?

enter image description here

下の写真を参照してください。

display(data06_16)またはdata06_16.head()のいずれかが正しく中国語文字を表示しません。

私は私の.bash_profileに以下の行を追加しようとしました:

export LC_ALL=zh_CN.UTF-8 
export LANG=zh_CN.UTF-8 

export LC_ALL=en_US.UTF-8 
export LANG=en_US.UTF-8 

が、それは解決しません。

はまた、私はpd.read_csv()encoding引数を追加しようとしました:

pd.read_csv('data.csv', encoding='utf_8') 
pd.read_csv('data.csv', encoding='utf_16') 
pd.read_csv('data.csv', encoding='utf_32') 

これらはまったく動作しません。

漢字を正しく表示するにはどうすればよいですか?

+0

「中国語」のコーデックを試しましたか?「encoding = 'gb2312''」と言ってください。 –

+0

ありがとうございます。 'UnicodeDecodeError: 'gb2312'コーデックは、位置2-3のバイトをデコードできません:不正なマルチバイトシーケンスです。 – Daniel

答えて

0

私は三つの可能な問題ここを参照してください:あなたがこの試すことができ

1):

import codecs 
x = codecs.open("testdata.csv", "r", "utf-8") 

2)別の可能性は、理論的にはこのことができます。

import pandas as pd 
df = pd.DataFrame(pd.read_csv('testdata.csv',encoding='utf-8')) 

3)たぶん、あなたがすべきPythonでインポートする前にcsvファイルをutf-8に変換してください(例えばNotepad ++で)?それはもちろん、自動プロセスではなく、ワンタイムインポートのための解決策になることができます。

0

私は、ソースデータセットは、encoding='GBK'を使用して作成されたことを思い出し、私は今

data06_16 = pd.read_csv("../data/stocks1542monthly.csv", encoding="GBK") 

を使用して再度試してみました、私はすべての漢字を見ることができます。

ありがとうございました!

関連する問題