この質問はthis oneに似ています。 pysparkでTrainValidationSplitを実行した後、最良のモデルパラメータを出力したいと思います。pysparkパイプラインで最高のモデルパラメータを印刷するには
pca = PCA(inputCol = 'features')
dt = DecisionTreeRegressor(featuresCol=pca.getOutputCol(),
labelCol="energy")
pipe = Pipeline(stages=[pca,dt])
paramgrid = ParamGridBuilder().addGrid(pca.k, range(1,50,2)).addGrid(dt.maxDepth, range(1,10,1)).build()
tvs = TrainValidationSplit(estimator = pipe, evaluator = RegressionEvaluator(
labelCol="energy", predictionCol="prediction", metricName="mae"), estimatorParamMaps = paramgrid, trainRatio = 0.66)
model = tvs.fit(wind_tr_va);
ありがとう:私は、コードの
パートがある...私はjupyterと端末からのログ。消えるに取り組んでいますので、他のユーザが質問に答えるために使用するテキストの一部を見つけることができませんあらかじめ。