精度スコア：ValueError：バイナリと連続のミックスを処理できません

私は予測モデルとしてscikit-learnからlinear_model.LinearRegressionを使用しています。それは動作し、それは完璧です。 precision_scoreメトリックを使用して予測結果を評価するのに問題があります。これは私の真のデータです：精度スコア：ValueError：バイナリと連続のミックスを処理できません

array([1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0])

そして、これは私の予測データである：

array([ 0.07094605, 0.1994941 , 0.19270157, 0.13379635, 0.04654469, 
    0.09212494, 0.19952108, 0.12884365, 0.15685076, -0.01274453, 
    0.32167554, 0.32167554, -0.10023553, 0.09819648, -0.06755516, 
    0.25390082, 0.17248324])

マイコード：

accuracy_score(y_true, y_pred, normalize=False)

そして、これはエラーメッセージです：

"ValueError: Can't handle mix of binary and continuous"

ヘルプ？ありがとうございました。

出典

2016-06-24 DataAddicted

dtypesは何ですか？ 'y_true'を' numpy.int8'にキャストできますか？カテゴリー変数を予測するために、代わりにロジスティック回帰を探しているのでしょうか？ – Benjamin

これは 'type_of_target（y_true）'と 'type_of_target（y_pred）'（ 'utils.multiclass.py'にあります）をチェックしています。配列に固有の値が2つしかない場合、配列は 'binary'として分類されます。 – hpaulj

accuracy_score(y_true, y_pred.round(), normalize=False)

あなたがしきい値を使用 (y_pred>threshold).astype(int)代わりのthresholdは、2つのクラスを分離するために、あなたの価値あるy_pred.round()上のより多くの制御を持っていることを好む場合。

出典

2017-05-12 19:24:08 natbusa

カットポイントを0.5に設定することもできますし、曲線の傾きに従って別のスレッショルドを決めることもできますし、特異度と感度のトレードオフが異なります。https://stats.stackexchange.com/questions/29719/をチェックしてください。決定的に最善のカットオフポイントとその信頼区間の使用曲線が統計の詳細を形成する。 – natbusa

予測された配列の1つのメモ。あなたはそこに負の価値を持っていることが分かります。通常、0と1の間の確率が必要です。softmax関数を使用して確率に変換できます。http://stackoverflow.com/questions/34968722/softmax-function-python – natbusa

実際のyはバイナリ（0と1）ですが、予測はありません。おそらく確率を生成し、予測ではないので、結果：代わりにクラスメンバシップを生成しようとすると、うまくいきます！

出典

2017-03-07 16:21:54 JohnnyQ

accuracy_scoreは分類メトリックです。回帰問題には使用できません。

JohnnyQがすでに指摘したように、問題は、私は、あなたがあなたのy_predで非バイナリ（いない0でも1）の値を持っていることです。

You can see the available regression metrics here

出典

2017-05-12 19:53:21

は多分これがこの質問を見つけた誰かを助けます。 e。追加時に

print(((y_pred != 0.) & (y_pred != 1.)).any())

出力にはTrueが表示されます。（このコマンドは、0または1以外の値があるかどうかを調べます）。

あなたが使用して非バイナリ値を見ることができます：

non_binary_values = y_pred[(y_pred['score'] != 1) & (y_pred['score'] != 0)] 
non_binary_idxs = y_pred[(y_pred['score'] != 1) & (y_pred['score'] != 0)].index

print文を出力することができる上記の誘導体化した変数。

最後に、この関数はすべて非バイナリエントリのデータをきれいにすることができます：

def remove_unlabelled_data(X, y): 
    drop_indexes = X[(y['score'] != 1) & (y['score'] != 0)].index 
    return X.drop(drop_indexes), y.drop(drop_indexes)

出典

2017-12-18 14:38:31

精度スコア：ValueError：バイナリと連続のミックスを処理できません

答えて

関連する問題