0

分布が不均一(高度がピーク)のデータセットが与えられた場合、ほぼ一様分布で新しいデータセットを作成するために再サンプリングしたいと考えています。私のアプローチ:不均一なデータから一様分布を作成するサンプル

  1. ビンにデータを分割します。
  2. ターゲットビンレベル=すべてのビンの中で、ビンあたりのサンプル数が最小です。
  3. 各ビンカウント=ターゲットビンレベルまでサンプルをランダムに削除します。

良い方法はありますか?私たちは、一様分布のために、我々は

を持っていることを知って

答えて

1

だからあなただけのこれらを構築することができ=(A + B)/ 2

分散=(BA)^ 2月12日

を意味し、 = min(data)とb = max(data)またはa = mean(lowest_bin)とb = mean(highest_bin)などを設定するこれらのパラメータを使用して、一様分布のサンプルを作成します。どのようにaとbを設定するかは、あなたのデータとあなたが達成したいことによって異なります

+0

私のデータはmean = 0で、範囲は-1から+1までです。 -1と+1の間の一様分布からランダムサンプルを選択すると言っているようです。しかし、そのようなサンプルは私のデータのサンプルに対応していません。あなたは一様分布から無作為標本を選択し、一様分布から引かれた値に最も近いサンプルを私のデータから選ぶと言っていますか? –

+0

元のデータをサンプリングしておきたい場合は、完了したようにするのが良いでしょう.3つのビンがあるとお考えください。最初のアイテムには1アイテム、2番目のアイテムには2アイテム、3番目のアイテムには3アイテムが含まれます。そして、私は各ビンが確率1/3であることを確かめます - ビン1のアイテムはP = 1/3を持ち、ビン2の2アイテムはP = 1/6です(したがって一緒に1/3があります) bin3のP = 1/9となる。このように、データポイントを削除する必要はありません。単純に重み付けして、各ビンから、ほぼ均一な分布を与えるべき同じ確率でアイテムを選択します。 –

関連する問題