2012-04-28 10 views
2

私は多くのNAを持つデータセットを扱っています。私は最初の6列にはNAがないことを知っています。最初の列はID列なので、省略しています。R予期しないNA出力がランダムフォレスト

I応答列に値を持つ行のみを選択するために、次のコードを実行します。私は、このコードを使用して、ランダムフォレストに設定されたデータとしてSUB1を使用

sub1 <- TrainingData[which(!is.na(TrainingData[,70])),] 

を:

set.seed(448) 
RF <- randomForest(sub1[,c(2:6)], sub1[,70] 
    ,do.trace=TRUE,importance=TRUE,ntree=10,,forest=TRUE) 

NAの出力をチェックするためにこのコードを実行します:

> length(which(is.na(RF$predicted))) 
[1] 65 

私はwhを理解できませんもしデータがきれいであればNAを得ることができます。

提案がありますか?

答えて

5

私はもっと木を使うべきだと思います。 predictedの値は、袋外セットの前提です。木の数が非常に少ない場合、このセットはランダムに形成されるため、アウトオブバックセットには決して存在しないケースもあります。