2017-11-14 25 views
0

私はKaggleのデータを使用してチャーンモデルを作成しようとしています。 train_test_splitを試してみると、私はKeyErrorを得る: "['temin' 'tdchar']インデックスにない"データにアクセスするためにカラムをインデックス化する必要があるかどうかは知っていますか?以下 は私のコードです:パンダがインデックスに登録されていない列にアクセスできない

import pandas as pd 
from sklearn.cross_validation import train_test_split 
df_churn = pd.read_csv("https://storage.googleapis.com/kaggle-competitions-data/kaggle/6716/[email protected]am.gserviceaccount.com&Expires=1510894749&Signature=TjX%2ByvtIpVtVls5YK48iS%2Fpu4ajHGARwNsLNVz5SVEO8SBz9SPZVkdR0vHj4nRbJY3LxDHXXP3jsRdIoljaExRy1oZ%2Fadk2q08besx8RZdHlhv7wEd1r6Djqe9ybfMusgL42%2BQvEg4FuIKf3Ayzuxz%2BXaN1rIZZkRMgcj7XFpL3ao6ITgI3XjfM%2FrYs5CIGS2r75Az6YWe5PjFhzjGb23ndYo%2Ftzh02QcDwZ6122f3sAwY045tWcY4NZNOA7EiAt7l12wifiI1NytB5Q2cid9YFUhIx5mSVOqXaXr6NCbj62VpVTq9Ic76w5UT9tu%2FsFjTS7WN5hQY625IT3yAxoFg%3D%3D") 

X_train, y_train, X_test, y_test = train_test_split(df_churn[["temin","tdchar"]],df_churn[["label"]],test_size=.3) 

私は、次のエラーメッセージが出ます:だから、

df_churn.columns 

Index(['st', ' acclen', ' arcode', ' phnum', ' intplan', ' voice', 
     'nummailmes', ' tdmin', ' tdcal', ' tdchar', ' temin', ' tecal', 
     ' tecahr', ' tnmin', ' tn cal', ' tnchar', ' timin', ' tical', 
     ' tichar ncsc', ' label'], 
     dtype='object') 

、それらを取り除く:

KeyError: "['temin' 'tdchar'] not in index" 

答えて

2

をお使いのカラム名は、それらの中に空白を持って

df_churn.columns = df_churn.columns.str.strip() 

これは今作動します!

X = df_churn[["temin", "tdchar"]] 
y = df_churn[["label"]] 
X_train, y_train, X_test, y_test = train_test_split(X, y, test_size=.3) 
関連する問題