私は50%の観測値が白と50%のアフリカ系アメリカ人のサンプルを持っています。観測タイプの固定比率の層別サンプリングR
このような比率を80%白と20%アフリカ系アメリカ人に変更したランダムサブサンプルを取得したいと考えています。
は層別のコマンドを試しましたが、層別基準に共有を割り当てることができるオプションが見つかりませんでした。
ありがとうございました!
私は50%の観測値が白と50%のアフリカ系アメリカ人のサンプルを持っています。観測タイプの固定比率の層別サンプリングR
このような比率を80%白と20%アフリカ系アメリカ人に変更したランダムサブサンプルを取得したいと考えています。
は層別のコマンドを試しましたが、層別基準に共有を割り当てることができるオプションが見つかりませんでした。
ありがとうございました!
ホワイトとアフリカ系アメリカ人のデータをフィルタリングし、各サブセットからデータを選択します。
## 80% of the white sample
smp_size <- floor(train_ratio * nrow(df_white))
## set the seed to make your partition reproductible
set.seed(42)
data_ind_w <- sample(seq_len(nrow(df_white)), size = smp_size)
とアフリカ系アメリカ人
## 20% of the african sample
smp_size <- floor(train_ratio * nrow(df_african))
## set the seed to make your partition reproductible
set.seed(42)
data_ind_a <- sample(seq_len(nrow(df_african)), size = smp_size)
ため
は、新しいデータのthatsnew_data <- c(white[data_ind_w,],african[data_ind_a,])
あなたの元のデータセットは、100行(白50と50のアフリカ系アメリカ人)の80%を持っていた場合40サンプル、20%が10サンプルとなる。これらの値を知っていれば、試してみることができます:stratified(mydf, "group", size = c("White" = 40, "African-American" = 10))
。
例:
mydf <- data.frame(group = rep(c("White", "African-American"), each = 50), value = 1:100)
mydf
library(splitstackshape)
set.seed(1)
x <- stratified(mydf, "group", size = c("White" = 40, "African-American" = 10))
summary(x)
# group value
# African-American:10 Min. : 1.00
# White :40 1st Qu.:15.25
# Median :31.00
# Mean :34.88
# 3rd Qu.:47.50
# Max. :93.00