2017-09-22 6 views
1

48個の異なる列を含むSpark DataFrame、train_tblがあります。 sparklyrパッケージを使用してランダムなフォレストモデルを訓練し、responseという変数とfeaturesという他のすべての列として48列のうちの1つを使用します。 473のフィールド名をすべて入力せずに、loan_status以外のすべてのフィールドをフィーチャーとして使用するように指定する方法はありますか?sparklyr:トレーニングモデルのレスポンス以外のすべての列を選択します。

ml_random_forest(x = train_tbl, 
       response = "loan_status", 
       features = call all fields EXCEPT "loan_status", 
       num.trees = 10L, 
       type = "classification") 

答えて

1

これは機能するはずです。動作しませんでしたwaskuf @

ml_random_forest(x = train_tbl, 
       response = "loan_status", 
       features = names(train_tbl)[which(names(train_tbl)!="loan_status")], 
       num.trees = 10L, 
       type = "classification") 
+1

が、あなたは間違いなく正しい方向に私を導いた...私はfeatures' 'のためにあなたの構文で開始し、働い以下にそれを編集した:' COLNAMES(train_tbl%> %select(-loan_status)) ' – bshelt141

+0

私の答えを更新しました。角括弧は名前の外にある必要があります()。今すぐ働かなければならない。 – waskuf

関連する問題