2016-07-12 5 views
3

私はrandomForestを使用してモデルをトレーニングしています。 「何かが間違っていて、すべての正確なメトリック値がありません」というエラーメッセージが表示され続けているため、データは最小限に抑えられています。R train randomForest、prox = TRUEエラーを引き起こす

最後に、すべてのこの減少した後、それはまだエラーメッセージで失敗するなど、時間について

はI因子レベルまたは何かに疎な値があったと仮定し、私は(合成レベル)に分類しました。ちょうど笑顔のために、私は列車機能からprox = TRUEパラメータを削除しました。突然、私はエラーメッセージを受け取っていません。誰もが、このパラメータが何をしているのか、それがなぜエラーの原因になるのかについての洞察を持っていますか?

は、ここではいくつかのコードの断片である:私は電車の関数の引数でTRUE PROX =をバック追加した場合、今

library(caret) 
set.seed(121) 
inTrain = createDataPartition(y = reducedData$loan_status, p = 0.7, list = FALSE) 
training = reducedData[ inTrain,] 
testing = reducedData[-inTrain,] 

fitControl <- trainControl(method = "cv", number = 5, allowParallel = TRUE) 

modelFit <- train(loan_status ~ ., data = training, method = "rf", trControl = fitControl) 

、それが再び恐ろしいエラーメッセージが発生します。そのパララムがそこにない限り、それは動く。

Something is wrong; all the Accuracy metric values are missing: 
    Accuracy  Kappa  
Min. : NA Min. : NA 
1st Qu.: NA 1st Qu.: NA 
Median : NA Median : NA 
Mean :NaN Mean :NaN 
3rd Qu.: NA 3rd Qu.: NA 
Max. : NA Max. : NA 
NA's :3  NA's :3  
+0

サンプルデータを提供することができます – Bg1850

+0

はい、どこにアップロードしますか?縮小されたセットは9 MBです – Jeff

答えて

1

メソッドで「cv」を使用しないでください。 "loocv"のようなものを使うようにしてください。通常、各グループに少数のサンプルを持つグループが多すぎる場合、この問題が発生し、CVを実行すると、CVがすべてのグループをカバーできない可能性が高くなります(各列車/テスト分割内) 。したがって、NAを返します。

fitControl <- trainControl(method = "cv", number = 5, allowParallel = TRUE) 
関連する問題