2012-04-04 18 views
0

各クラスの訓練サンプルサイズが等しい必要があるかどうか教えてください。各クラスの最近傍分類器訓練サンプルサイズ

このシナリオをとることはできますか?

  class1 class2 class3 
samples 400  500  300 

、またはすべてのクラスの標本サイズが同じである必要がありますか?

+0

私はあなたの質問にはっきりしていませんが、あなたが平等をテストしている基本的なものについてもう少し詳しく説明できますか? – AurA

+0

@AurA質問 – klijo

答えて

7

KNN結果は、基本的には、(Nの値を除く)3つの事に依存:あなたのトレーニングデータの

  • 密度:あなたはおおよそ各クラスのサンプルの数が同じでなければならないが。正確である必要はありませんが、私は10%以上の相違がないと言います。さもなければ境界は非常にあいまいになるでしょう。
  • トレーニングセット全体のサイズ:モデルが未知のサンプルに一般化できるように、トレーニングセットに十分な例が必要です。
  • ノイズ:KNNは本質的にノイズに非常に敏感です。したがって、トレーニングセットのノイズをできるだけ避けたいと考えています。

2D空間でドーナツのような形を学習しようとしている次の例を考えてみましょう。

(あなたが外よりもドーナツの内側より、トレーニングサンプルを持っているとしましょう)あなたのトレーニングデータの異なる密度を有することにより、あなたの決定境界は、以下のようにバイアスされます。他に

donut-bad

手、あなたのクラスは比較的バランスが取れている場合、あなたはドーナツの実際の形状に近くなりますはるかに微細な決定境界を取得します:

enter image description here

基本的に、私はあなたのデータセットのバランスをとるようにアドバイスしています(ちょうどそれを正規化します)。また、上記の2つの項目を考慮してください。

不均衡なトレーニングデータに対処する必要がある場合は、WKNNアルゴリズム(KNNの最適化のみ)を使用して、要素の少ないクラスに強い重みを割り当てることを検討することもできます。

+0

WKNNまたは少なくともその完全な形式に関するいくつかのリンクはありますか? – potatoes

-1

k最近傍法は、サンプルサイズに依存しません。サンプルのサンプルサイズを使用することができます。たとえば、k-最近傍のKDD99データセットのfollowing paperを参照してください。 KDD99は、あなたのサンプルデータセットよりもはるかに不均衡なデータセットです。

+0

をサンプルサイズで更新しました。これは、サンプルサイズのトレーニングです。私は私の質問を更新しました。あなたは今私の質問のために答えますか? – klijo

+0

同じです。 k最近隣は、クラスメンバシップを決定するためにトレーニングセットを使用する。サンプルサイズの違いをトレーニングするのではなく、トレーニングデータセットのサンプルの多様性についてのものです。 –

+2

knnクラシファイアの結果は、トレーニングサンプルの密度に依存しないと言うことには納得できません。 – klijo

関連する問題