RのrandomForestパッケージを使用して不均衡なデータをモデル化しています。結果は、(2249(88%)、318(12%))の相対頻度を有する結果(no、yes)を有するバイナリ変数である。randomForestSRCサンプリング方式
不均衡のために、RFはOOBエラー率0%でyes、OOBエラー率100%でyesと予測しました。私は、次のコードを使用して、可能な2249から無作為に抽出された318の結果と318の結果を強制的に使用して、RFのサンプリング設計を変更しました。 OOBのエラー率は、「いいえ」の場合は44%、「はい」の場合は12%になりました。
誰もこのサンプリングデザインを繰り返す方法を知っていますか?randomForestSRC?
私は
rfsrc.1 <- rfsrc(binary.outcome ~ ., data = data,
bootstrap = "by.user", samptype = "swor",
samp = c(318,318), replace = TRUE, importance = "permute",
proximity = TRUE, mtry = 8, ntree = 2000)
が、私はエラーメッセージが表示されますCRANのPDFの仕様からそれをワークアウトトラブルを抱えています "の適用(SAMP、2、合計):(x)は正の長さを持っている必要があり薄暗い"
私が望むものを得るためにsampとbootstrapを操作する方法を考えることができません。
は、
ドン
ありがとうございました。私の質問に答えます。また、特定のサブグループが存在する他の状況にも一般化されます。 – user2888990