私はあなたの用語に誤解があると思います。あなたの質問のタイトルはサンプリングを指しますが、質問テキストには重み付けが含まれます。明確にするために
:
をサンプリングを使用すると、どちらかは元のセットに比べて、より少ない同じ、またはそれ以上のインスタンスを持っています。サンプルのユニークなメンバーシップは、元のセットの厳密なサブセットであっても、元のセットと同じであってもよい(置き換え、すなわち重複を伴う)。
重み付けを行うことにより、一様な重み付けに対して相対的なバランス(バランス)を取る、または課すための追加の目的(サンプリング、機械学習など)に使用できる重みを調整するだけです。
私はあなたが重み付けを指していると信じていますが、同じ答えが両方の場合に有効です。観察の合計数がN
であり、各クラスの頻度が20-長ベクトルfreq
の要素(例えば、クラス1の項目の数がfreq[1]*N
である場合)の場合、重みベクトルを1/freq
と単純に使用して重みを正規化します。あなたは何らかの定数でスケールすることができます。 N
でも問題ありません。周波数が0またはそれに非常に近い場合は、スムージングされたカウントのベクトル(Good-Turingスムージングなど)を使用してこの問題に対処できます。
結果として、各セットは総重量の等しい割合を持ちます。
誰がこれを落札したか分かりませんが、あなたの質問に答えるためにさらに多くの情報が必要だと思います。データのためにstr()またはdput()を試して、正確に何をする必要があるのかを人々に知らせてください。 – nzcoops
また、あなたの質問はhttp://stats.stackexchange.comにもっと適しているかもしれません –