2017-12-04 21 views
0

私は50%の観測値が白と50%のアフリカ系アメリカ人のサンプルを持っています。観測タイプの固定比率の層別サンプリングR

このような比率を80%白と20%アフリカ系アメリカ人に変更したランダムサブサンプルを取得したいと考えています。

は層別のコマンドを試しましたが、層別基準に共有を割り当てることができるオプションが見つかりませんでした。

ありがとうございました!

答えて

0

ホワイトとアフリカ系アメリカ人のデータをフィルタリングし、各サブセットからデータを選択します。

## 80% of the white sample 
    smp_size <- floor(train_ratio * nrow(df_white)) 

    ## set the seed to make your partition reproductible 
    set.seed(42) 
    data_ind_w <- sample(seq_len(nrow(df_white)), size = smp_size) 

とアフリカ系アメリカ人

## 20% of the african sample 
    smp_size <- floor(train_ratio * nrow(df_african)) 

    ## set the seed to make your partition reproductible 
    set.seed(42) 
    data_ind_a <- sample(seq_len(nrow(df_african)), size = smp_size) 

ため

は、新しいデータのthats

new_data <- c(white[data_ind_w,],african[data_ind_a,]) 
0

あなたの元のデータセットは、100行(白50と50のアフリカ系アメリカ人)の80%を持っていた場合40サンプル、20%が10サンプルとなる。これらの値を知っていれば、試してみることができます:stratified(mydf, "group", size = c("White" = 40, "African-American" = 10))

例:

mydf <- data.frame(group = rep(c("White", "African-American"), each = 50), value = 1:100) 
mydf 
library(splitstackshape) 
set.seed(1) 
x <- stratified(mydf, "group", size = c("White" = 40, "African-American" = 10)) 
summary(x) 
#    group  value  
# African-American:10 Min. : 1.00 
# White   :40 1st Qu.:15.25 
#      Median :31.00 
#      Mean :34.88 
#      3rd Qu.:47.50 
#      Max. :93.00 
関連する問題