私は厄介な統計的な問題を持ついくつかの天才SQLのヘルプを探しています。SQL統計サンプリング
私が探しているのは、不均衡なユーザープロファイルのグループから統計的にバランスの取れたサンプルを引き出すことです。これを一度に1つのプロファイル属性(例えば性別)に対して行うことはやや簡単です。しかし、それを一度に複数の次元に渡って行うには、洗練さが必要です。
議論のために、私はこのテーブルを持っているとしましょう。
Profile.userID
Profile.Gender
Profile.Age
Profile.Income
私は、ユーザーの新しいサンプリングはおおよそ次のすべての特性と一致するようにミックスのうち、プロファイルのプールを引くしたい場合:
50% male, 50% female
30% young, 40% middle age, 40% old
40% low income, 40% middle income, 20% high income
誰がどの程度の任意のアイデアを持っていますこれを取り除く?
サンプルセットが仕様を満たすまで、一度に1つずつランダムにレコードをプルするのを防ぐには? –
私はそれが絶えずバランスを崩さないようにするにはどうすればいいですか?私はもう1つの女性のレコードが必要だと言うが、それを引っ張って、私の年齢と収入がバランスを崩してしまう...? – tbacos
30%の若者、40%の中年、40%の古い!= 100% あなたの範囲内で若い人と中年の人の重複はありますか? –