1

私はカテゴリ型フィーチャと連続フィーチャが混在しています。私はすべてのカテゴリ変数をインデックス化していると私はカテゴリであり、連続しているどの機能を指定する方法を見つけることができなかった機能欄スパークMLディシジョンツリーは、回帰問題の連続フィーチャをどのように扱いますか

 StringIndexerModel indexer = new StringIndexer() 
        .setInputCol("categorical") 
        .setOutputCol("categoricalIdx1") 
        .setHandleInvalid("skip").fit(data); 
     VectorAssembler assembler = new VectorAssembler() 
        .setInputCols(new String[]{"categoricalIdx1","continuous"}) 
        .setOutputCol("features"); 

     DecisionTreeRegressor dt = new DecisionTreeRegressor() 
             .setMaxBins(40) 
             .setMaxDepth(10) 
             .setFeaturesCol("features") 
             .setLabelCol("commission") 
             .setPredictionCol("prediction"); 

を作成するためにVectorAssemblerを使用しています。そして、すべての列が数値に変換されているので、DecisionTreeRegressorはその違いをどのように知っていますか?私はここで何が欠けていますか? コードはうまくいくと思われますが、私はここで間違ったことをしています。

答えて

1

スパークの使用MaxBinsは、機能をカテゴリ別または連続して指定します。異なる値の数が< = MaxBinsの場合、それはカテゴリです。それ以外の場合は、継続します。詳細については、Sparkのドキュメント:decision tree

をご確認ください。
関連する問題