2016-12-06 8 views
0

私はデータセット 'df'をチェックし、 'Has_Arrears'列に深刻な不均衡があることを確認するためにコードを使用します。私は、Has_Arrears = 1の下で重複サンプルを使ってターゲットデータセットを35倍に拡張します。つまり、Has_Arrears = 1の観測ごとに35回サンプルします。これをどうすれば実現できますか?歓声サンプルをデータセットに複製しますか?

層別サンプリングを使用したい場合、これをどのようにコードすることができますか?

enter image description here

+0

それは、あなたがこの問題にしたい正確に何を伝えるのは難しいです。どのような種類のオブジェクトを返すにはコードが必要ですか?これは、Has_Arrears == 1のオーバーサンプリングされた行を表すインデックスの配列ですか? – kiliantics

答えて

0

私が正しくあなたを理解していれば、これはあなたが探しているものかもしれ:

new = df['Has_Arrears'] == 1 
a = df[new] 
df = df.append([a]*35, ignore_index=True) 
関連する問題