2017-10-19 8 views
1

カテゴリR変数と数値変数を含むデータセットとRの中のRandom Forestパッケージを使用しようとしています( "不要なcoloumns"私は予測変数として含めたくない)。さらに、(予測変数として使用されるはずの)私の望ましい変数のいくつかが欠落しています。 どうすれば対応できますか?Randomフォレスト不一致の値を含むカテゴリ変数、数値変数、および "不要な"変数が混在する場合

答えて

0

あなたのデータセットはこのように見えます。

mydf <- data.frame(target = c(1:100), 
        param1 = c(rep("a",10), rep("b", 50), 
           rep("c", 20), rep("a",15), rep(NA, 5)), 
        param2 = runif(100,0,1), 
        param3 = c(runif(20,1,10),runif(50,20,30),rep(NA,10), 
           runif(10,0,5), runif(10,70,80))) 
  1. のみ所望列を使用します。

    a。数式で、ランダムフォレストで使用する列を指定することもできます。 myrf <- randomForest(target ~ param1 + param2, mydf) # this excludes param3

    b。そうでない場合は、必要な列のみを保持してデータセットのサブセットを作成できます。

    mydf2 <- mydf[,c(target,param1,param2] 
    myrf <- randomForest(target ~ ., mydf2) 
    
  2. NAを値を処理します。

    a。あなたはそれらを代償しようとするかもしれません。

    b。または、それらを扱うことができる別のライブラリ(rpartなど)でもかまいません。

最後に、このスレッドをご覧ください。

How to build random forests in R with missing (NA) values?

+0

素晴らしい!ありがとうございました –

関連する問題