2017-02-14 8 views
0

なぜ私はj​​sonファイルのつぶやきをパンダにロードするときに私は奇妙な文字がたくさんあるのかわかりません。パンダtweet json奇妙な文字u' '

for file_name in files: 
     if '.json' in file_name: 
      file_path = WORKING_DIR + '/data/' + file_name 

      # Reading the json as a dict 
      with open(file_path) as json_d: 
       data = json.load(json_d, encoding='utf8') 
       json_df = pd.DataFrame.from_dict(data) 
       dfs.append(json_df) 
+0

u' 'は、' 'utf-8' 'エンコーディングで文字のデコードに失敗したことを意味します。厳密なデコードを適用すると、u' 'の代わりにエラーが発生します。そのファイルは他のエンコーディングの中にありますか? – MYGz

答えて

1

ファイルにfile_nameのためencoding='utf-16'またはencoding='utf-8'

を使用してみてください: file_nameの中に '.json' 場合: FILE_PATH = WORKING_DIR + '/データ/' + file_nameに

 # Reading the json as a dict 
     with open(file_path) as json_d: 
      data = json.load(json_d, encoding='utf-16') 
      json_df = pd.DataFrame.from_dict(data) 
      dfs.append(json_df) 

として、 @MYGz「u'Su」は、「utf-8」で文字のデコードに失敗したことを意味します。「 他のエンコーディングを試してみてください。