2017-07-09 2 views
2

私はScalaでSparkを使用しています。私は自分のデータで別の前処理をしたい。 CrossValidatorが複数のモデル(ParamMapsも含む)を使用して、これら2つのモデルからベストモデルを取得する方法はありますか?例: 私は何をしたいです:spark/scalaで異なる前処理を使用して複数のモデルを相互検証する

val discretizer = new QuantileDiscretizer() 
    .setInputCol("column1") 
    .setOutputCol("column1disc") 
    .setNumbuckets(5) 
val normalizer = new Normalizer() 
    .setInputCol("column1") 
    .setOutputCol("column1norm") 

val lr1 = new LinearRegression() 
    .setFeaturescol(discretizer.getOutputCol) 
    .setMaxIter(10) 
val lr2 = new LinearRegression() 
    .setFeaturescol(normalizer.getOutputCol) 
    .setMaxIter(10) 

val pipeline = new Pipeline().setStages(Array(dicretizer,normalizer,lr1,lr2)) 

は今、私は私のCrossValidatorはLR1とLR2から、二つのモデルの最高を選ぶにしたいです。これはほんの少しの例ですが、私はParamMapsでもこのような可能性をいくつか拡張したいと考えています。

答えて

関連する問題