トレーニングデータを70%のトレーニング、15%のテスト、15%の検証に分割したいと考えました。私はキャレットパッケージのcreateDataPartition()
機能を使用しています。私は、次のデータパーティションをトレーニング、テスト、および検証に分割する - Rで分割する
train <- read.csv("Train.csv")
test <- read.csv("Test.csv")
split=0.70
trainIndex <- createDataPartition(train$age, p=split, list=FALSE)
data_train <- train[ trainIndex,]
data_test <- train[-trainIndex,]
のようにそれを分割しています以下のH2o
アプローチのようなcreateDataPartition()
を使用して、トレーニング、テストと検証に分割する方法はありますか?
data.hex <- h2o.importFile("Train.csv")
splits <- h2o.splitFrame(data.hex, c(0.7,0.15), destination_frames = c("train","valid","test"))
train.hex <- splits[[1]]
valid.hex <- splits[[2]]
test.hex <- splits[[3]]
は、2つの分割操作を行い、(1)テストおよび検証にトレーニング及びTEMP及び(2)温度に元のデータ。 – Gregor
重複:http://stackoverflow.com/questions/36068963/r-how-to-split-a-data-frame-into-training-validation-and-test-sets – stackoverflowuser2010
2017年8月:現在はrsample 'package in R https://topepo.github.io/rsample/ – alexpghayes