データセットを完全にランダムに分割する方法は分かりますが、私がしたいことについて "論理的に"ここで私を捨てているようだ。分割データセットを半分に分割し、選択した変数の各レベルの半分をランダムに選択します
私は、120レベルを持つカテゴリ変数Title
を持つデータセットを持っています。各レベルには50の観測値があります。私は、ハーフセットAとハーフセットBのそれぞれがTitle
の各レベルの50の観測のうちランダム25を得るような方法でデータセットを半分に分割したいと思います。 (これはEFAとCFA用です)
120レベルとsample(nrow(subset(dataset,title=index), 25)
をループするためにはforループが必要になると思いますが、それ以上は少し迷っています。私が考えてきた少しの潜在的な解決策は、ハーフセットAのランダム25を選択しますが、置き換えを行うので、ハーフセットBを作るために再び実行すると、オーバーラップします。
例データ:いつものように
set.seed(1)
dataset = data.frame(id = rep(1:120, 50), v = rnorm(120*50))
おかげで、みんな。
が、それはするのが最善です'set.seed(1);のようなコードで再現可能な例を作ることもできます。 DF = data.frame(id = rep(1:120,50)、v = rnorm(120 * 50)) ' – Frank