私が正しく理解している場合、ホールドアウトサンプリングを作成しようとしています。これは、通常、確率を使用して行われます。ですから、n.rows
サンプルを持っているとtraining.fraction
の割合はトレーニングに使用する場合は、あなたがこのような何かを行うことがあります。
select.training <- runif(n=n.rows) < training.fraction
data.training <- my.data[select.training, ]
data.testing <- my.data[!select.training, ]
あなたがトレーニングケースの正確な数を指定したい場合は、あなたのような何かを行うことがあります。
indices.training <- sample(x=seq(n.rows), size=training.size, replace=FALSE) #replace=FALSE makes sure the indices are unique
data.training <- my.data[indices.training, ]
data.testing <- my.data[-indices.training, ] #note that index negation means "take everything except for those"
ありがとうございました! - 私のトレーニングデータは一意である必要がありますが、追加情報をありがとうございます! –
@LowYiXiang、ここでは 'head'と' tail'が役に立つかもしれません: 'idx < - sample.int(100); train.idx < - head(idx、10); test.idx < - tail(idx、-10); ' – flodel