2017-12-05 40 views
0

現在、動物園データベースに含まれている機能に基づいて動物を推測させようとしています。 このコードを実行すると、エラー '' ValueError:一致しないサンプル数の入力変数が見つかりました:[100,7] ''が表示されます。これは 'ValueError:サンプルの数が一致しない入力変数が見つかりました:[100,7]

def zoo_that(): 
    zoodatabase = pd.read_csv('C:/Users/Quentin Clayton/Documents/Class work/Quarter 9/Data Analytics Project I/Final Project for Project Course/zoo.csv', header = 0) 
    classtypes = pd.read_csv('C:/Users/Quentin Clayton/Documents/Class work/Quarter 9/Data Analytics Project I/Final Project for Project Course/class.csv',header = 0,) 
    zoodatabase_v2 = zoodatabase.merge(classtypes,how = 'left',left_on = 'class_type',right_on = 'Class_Number') 
    X = zoodatabase_v2.loc[:, 'hair':'catsize'] 
    Y = zoodatabase_v2.loc[:, 'class_type':'Class_Number'] 
    testing_size = 0.2 
    seed = 2 
    X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=testing_size, random_state=seed) 

    # Test options and evaluation metric| 
    scoring = 'accuracy' 

    models = [] 
    models.append(('LR', LogisticRegression())) 
    models.append(('LDA', LinearDiscriminantAnalysis())) 
    models.append(('KNN', KNeighborsClassifier())) 
    models.append(('CART', DecisionTreeClassifier())) 
    models.append(('NB', GaussianNB())) 
    models.append(('SVM', SVC())) 
    # evaluate each model in turn 
    results = [] 
    names = [] 
    for name, model in models: 
     kfold = model_selection.KFold(n_splits=4, random_state=seed) 
     cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring) 
     results.append(cv_results) 
     names.append(name) 
     msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std()) 
     print(msg) 

    # Make predictions on validation dataset 
    LR = LogisticRegression() 
    LR.fit(X_train, Y_train) 
    predictions = LR.predict(X_validation) 
    print("Accuracy score\n",accuracy_score(Y_validation, predictions)) 
    print("Confusion matrix\n",confusion_matrix(Y_validation, predictions)) 
    print("Final Report\n",classification_report(Y_validation, predictions)) 
    print(scoring) 

zoo_that() 
Traceback (most recent call last): 

    File "<ipython-input-20-396e334d1676>", line 1, in <module> 
    zoo_that() 

    File "C:/Users/Quentin Clayton/Documents/Class work/Quarter 9/Data Analytics Project I/Final Project for Project Course/Final Submission.py", line 35, in zoo_that 
    X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=testing_size, random_state=seed) 

    File "D:\Anaconda\lib\site-packages\sklearn\model_selection\_split.py", line 2031, in train_test_split 
    arrays = indexable(*arrays) 

    File "D:\Anaconda\lib\site-packages\sklearn\utils\validation.py", line 229, in indexable 
    check_consistent_length(*result) 

    File "D:\Anaconda\lib\site-packages\sklearn\utils\validation.py", line 204, in check_consistent_length 
    " samples: %r" % [int(l) for l in lengths]) 

ValueError: Found input variables with inconsistent numbers of samples: [100, 7] 

ピクチャー 'X_train、X_validation、Y_train、Y_validation = model_selection.train_test_split(X、Y、test_size = testing_size、random_state =シード)'' エラーがこの行で発生示しますファイルの [1]:https://i.stack.imgur.com/OaJmO.jpg [これはクラスCSVである] [1] [2]:https://i.stack.imgur.com/FL0by.jpg [これは動物園CSVである] [2]

+0

zoo.csvファイルとclass.csvファイルのデータのスニペットを教えてください。 –

答えて

0

問題はこの部分である:

X = zoodatabase_v2.loc[1:101,'hair':'catsize'] 
Y = zoodatabase_v2.loc[0:6,'Class_Type':'Animal_Names'] 

Xは長さが100(1:101)、Yが長さが6の系列です。モデルを学習するには、すべての入力レコードにターゲットラベルを付ける必要があります。また、1つのターゲットラベルを与える必要がありますが、現在は2( 'Animal_Names'と 'Class_Type')を与えているように見えます。サブセッティングを削除すると、それが機能するはずです。すなわち

X = zoodatabase_v2.loc[:, 'hair':'catsize'] 
Y = zoodatabase_v2.loc[:, 'Class_Type'] 

は正常に動作するはずです。

+0

このValueErrorを実行しようとしたときにこのエラーが発生しました。不正な入力シェイプ(60,2) –

+0

予測しようとしていることは何ですか?クラスの種類や動物の名前? –

+0

私はクラスのタイプを予測しようとしています –

関連する問題