スパークMLディシジョンツリーは、回帰問題の連続フィーチャをどのように扱いますか

私はカテゴリ型フィーチャと連続フィーチャが混在しています。私はすべてのカテゴリ変数をインデックス化していると私はカテゴリであり、連続しているどの機能を指定する方法を見つけることができなかった機能欄スパークMLディシジョンツリーは、回帰問題の連続フィーチャをどのように扱いますか

 StringIndexerModel indexer = new StringIndexer() 
        .setInputCol("categorical") 
        .setOutputCol("categoricalIdx1") 
        .setHandleInvalid("skip").fit(data); 
     VectorAssembler assembler = new VectorAssembler() 
        .setInputCols(new String[]{"categoricalIdx1","continuous"}) 
        .setOutputCol("features"); 

     DecisionTreeRegressor dt = new DecisionTreeRegressor() 
             .setMaxBins(40) 
             .setMaxDepth(10) 
             .setFeaturesCol("features") 
             .setLabelCol("commission") 
             .setPredictionCol("prediction");

を作成するためにVectorAssemblerを使用しています。そして、すべての列が数値に変換されているので、DecisionTreeRegressorはその違いをどのように知っていますか？私はここで何が欠けていますか？コードはうまくいくと思われますが、私はここで間違ったことをしています。

出典

2017-06-02 Aasiz

スパークの使用MaxBinsは、機能をカテゴリ別または連続して指定します。異なる値の数が< = MaxBinsの場合、それはカテゴリです。それ以外の場合は、継続します。詳細については、Sparkのドキュメント：decision tree

をご確認ください。

出典

2017-07-04 15:34:19 PC9527

スパークMLディシジョンツリーは、回帰問題の連続フィーチャをどのように扱いますか

答えて

関連する問題