2017-02-07 8 views
3

私はKNN分類アルゴリズムで私のモデルを訓練していましたが、97%の正確さを得ていました。しかし、私は後で私がデータを正規化するのに欠場し、私のデータを正規化してモデルを再学習したことに気付きました。今はわずか87%の精度しか得ていません。理由は何でしょうか?また、正規化されていないデータを使用することに固執するか、標準化されたバージョンに切り替える必要があります。KNNの正規化の精度差

+0

これはhttp://stats.stackexchange.comの質問です。 –

+0

トレーニングデータセット単独での精度は、それだけではモデルの品質の良い尺度ではありません。あなたの質問に答えて作業を指導するためには、モデルを訓練したものとは異なるデータセット、いわゆる検証データセットまたはテストデータセットを使用する必要があります。 –

答えて

2

質問に答えるには、まずKNNの仕組みを理解する必要があります。ここでは、簡単な図である。

http://www.vias.org/tmdatanaleng/img/hl_knn.png

はなって?あなたが赤または青のいずれかに分類しようとしているポイントです。このケースでは、データを正規化していないと仮定してください。あなたが明らかに見ることができるように?青いボットよりも赤い点に近い。したがって、この点は赤色であると想定されます。また、正しいラベルが赤であると仮定して、これは正しい一致です!

ここで、正規化について説明します。正規化は、わずかに異なるデータを取得する方法ですが、それを共通の状態にします(あなたの場合は、機能をより似ていると考えてください)。上記の例で、?のフィーチャを正規化して、出力yの値が小さくなると仮定します。これは、現在の位置の下に疑問符を置き、より青い点で囲まれます。したがって、あなたのアルゴはそれを青色と表示し、それは間違っているでしょう。おお!

質問にお答えします。申し訳ありませんが、答えはありません!場合によっては、データの正規化によって重要なフィーチャの相違がなくなるため、精度が低下することがあります。それ以外の場合は、誤った分類の原因となる機能のノイズを除去するのに役立ちます。また、現在作業しているデータセットの精度が上がるという理由だけで、異なるデータセットで同じ結果が得られるわけではありません。

長文で言えば、正規化に「良い/悪い」とラベル付けするのではなく、分類に使用するフィーチャ入力を考慮し、モデルにとって重要なフィーチャを特定し、そのフィーチャの違いがあなたの分類モデル運が良かった!

2

標準化された特徴ベクトルを使用すると、データポイント間の距離は、非正規化されたフィーチャを使用した場合(特にフィーチャの範囲が異なる場合)とは異なる可能性があります。 kNNは任意の所与の点からk個の最も近い点を見つけるために典型的にはeuclidian距離を用いるので、正規化された特徴を使用すると、正規化されない特徴が使用されたときに選択されるものとは異なる

1

これはかなり良い質問ですが、通常は正規化がKNNクラシファイアがうまくいくのに役立つため、一見したところ予想外です。一般的に、良いKNNのパフォーマンスは、通常、すべての変数を同様にスケーリングして中央に置くためにデータの前処理が必要です。さもなければ、KNNはしばしばスケーリングファクタによって不当に支配されることになる。

この場合、反対の効果が見られます.KNNはスケーリングでは一見ワンスになります。

しかし、あなたが目にしているものは、過適合である可能性があります。 KNNは過密かもしれませんが、それはデータを非常にうまく記憶していますが、新しいデータではうまく機能しません。最初のモデルは、そのデータの特性のためにより多くのデータを記憶しているかもしれませんが、それは良いことではありません。訓練されたものとは異なるデータセット、いわゆる検証セットまたはテストセットで予測精度を確認する必要があります。

次に、KNNの精度が良いかどうかを知ることができます。

機械学習のコンテキストで学習曲線分析を調べます。バイアスと分散について学んでください。ここで詳述するよりも深い主題です。このトピックに関する命令の最高の、最も安い、そして最速のソースは以下のインストラクターで、ウェブ上の動画です:

  • アンドリュー・ウ、

  • TibshiraniとHastieを学ぶオンラインコーセラコースマシンで、オンラインスタンフォードコース統計学学習。

+0

答えをいただきありがとうございます。私はk倍検証を使用しており、異なるデータセットでデータを訓練しようとしていますが、各折りたたみについても同様の精度を得ています。 –

関連する問題