5

私はかなり理解していない機械学習の結果があります。私は、約14のフィーチャーの2百万のデータを持つ、python sciki-learnを使用しています。 'ab'の分類は精密リコールカーブではかなり悪く見えますが、AbのROCは他のほとんどのグループの分類と同じくらいよく見えます。それを何が説明できますか?良好なROCカーブですが、精度が低いリコールカーブ

enter image description here

enter image description here

+0

あなたの設定はバランスが取れていますか? (すなわち、非abと同じくらいab) – Calimo

+0

それは非常に不均衡ではありません、Abは2%未満です – KubiK888

+0

ここに行きます。問題を軽減するためにオーバーサンプリングを試してください。 – Calimo

答えて

8

クラスの不均衡。

ROC曲線とは異なり、PR曲線は不均衡に非常に敏感です。バランスの取れていないデータで良好なAUCを得るためにクラシファイアを最適化すると、精度の低いリコール結果が得られる可能性があります。

+1

私は参照してください、しかし、それは実際にテストのパフォーマンスの点でどういう意味ですか?それは良いですか(ROCベース)または悪いですか(P-Rベース)?上記のP-R曲線の中で最良のことが精度とリコールの両方で40%であれば、どのようにしてテストを行うことができますか? – KubiK888

+0

これは、不平衡データのテストのパフォーマンスを報告するときに注意する必要があることを意味します。医療アプリケーションでは、それはひどい影響を与えることができます(エイズテストは教科書のケースとして参照してください)。それ以外の場合は、あなたの特定のアプリケーションによって異なります。 – Calimo

+0

私はscikitを使っているのでデフォルト設定を微調整しませんでしたが、AUCに基づいて最適化しているようですが、不均衡なデータのPrecision/Recallペアに基づいて最適化する方法はありますか? – KubiK888

関連する問題