元のデータ配信の割合を維持しながらランダムな行を選択していますか？

今

d[,.N,by=group]

として配布されている5つのグループのためのデータを表し、次のdata.table

d <- data.table(group=rep(letters[1:5],c(30,20,20,20,10)), x=1:100, y=101:201)

を持って考えてみましょう、私は小さなサンプルを選択しないか、のは10行としましょう（または1つまたは複数の列に基づいておおよそ類似したグループ分布を有するデータの10％）。だから、上記の表Iは、何かのようになります受け取ることができる架空のサブセットのため：

私はこれを行うにはどうすればよい、好ましくは、data.table？あなたがこれについて議論するSO hereに関する質問がありますが、私はむしろ分配率を手動で計算しません。

出典

2017-09-09 Vijay

私はcaretを使うべきだと思います。 createDataPartition()関数は、ターゲット変数の確率分布を失うことなくデータセットをサブセット化することを意味します。

library(caret) 
my.ids <- createDataPartition(d$group, p = 0.1) 
train <- d[as.numeric(my.ids[[1]]), ]

母集団とサブセットのターゲット変数の分布を確認できます。

par(mfrow = c(1,2)) 
barplot(table(d$group), main = "full dataset") 
barplot(table(train$group), main = "subset")

出典

2017-09-09 02:10:53

非常に良い！ Damianoさん、 'caret :: createDataPartition'と徹底的な答えを指摘してくれてありがとうございます。 – Vijay

あなたはグループによってインデックス/ ROW_NUMBER.Iをサンプリングし、それを用いて元のデータテーブルをサブセットすることができる：

d[d[, sample(.I, .N * 0.1), group]$V1] 

# group x y 
# 1:  a 10 110 
# 2:  a 2 102 
# 3:  a 14 114 
# 4:  b 45 145 
# 5:  b 49 149 
# 6:  c 62 162 
# 7:  c 51 151 
# 8:  d 84 184 
# 9:  d 76 176 
#10:  e 100 200

ここ.I、すなわち、グローバル行番号を表す整数ベクトルであるseq_len(nrow(d))、d[, sample(.I, .N * 0.1), group]各グループから行番号の割合を取って、元のdata.tableを索引でサブセット化します（デフォルトの列はV1）。

出典

2017-09-09 01:48:52 Psidom

か 'D [サンプル（.N）、ヘッド（.SD、.N * 0.1）=基によって]'（寄せ集めすべての行は、次に、上部選択）。 – Frank

@Frankいいです。 – Psidom

ありがとうPsidomとフランク！質問書式を修正してくれてありがとう@フランク。とても有難い。 – Vijay

元のデータ配信の割合を維持しながらランダムな行を選択していますか？

答えて

関連する問題