weight
Param
べき二重及びスキューラベルの分布を補正するために、例えばサンプルの重要度を決定するために使用されます。
のは、あなたがこのようなデータを持っているとしましょう:
val data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")
val skewed = data
.where($"label" === 0.0).limit(5)
.union(data.where($"label" === 1.0))
skewed.groupBy($"label").count.show
+-----+-----+
|label|count|
+-----+-----+
| 0.0| 5|
| 1.0| 57|
+-----+-----+
我々はlabel
等しい0.0で、レコードに高い重みを追加することができます。
val weighted = skewed
.withColumn("weight", when($"label" === 0.0, 1.0).otherwise(0.1))
val weightedModel = new NaiveBayes().setWeightCol("weight").fit(weighted)
weightedModel.transform(weighted.where($"label" === 0.0)).show
+-----+--------------------+------+--------------------+-----------+----------+
|label| features|weight| rawPrediction|probability|prediction|
+-----+--------------------+------+--------------------+-----------+----------+
| 0.0|(692,[127,128,129...| 1.0|[-165013.81130787...| [1.0,0.0]| 0.0|
| 0.0|(692,[129,130,131...| 1.0|[-191959.02863649...| [1.0,0.0]| 0.0|
| 0.0|(692,[154,155,156...| 1.0|[-201850.30335886...| [1.0,0.0]| 0.0|
| 0.0|(692,[127,128,129...| 1.0|[-202315.73236242...| [1.0,0.0]| 0.0|
| 0.0|(692,[153,154,155...| 1.0|[-258710.53340756...| [1.0,0.0]| 0.0|
+-----+--------------------+------+--------------------+-----------+----------+
をすることができます特徴ベクトルをスケーリングするにはElementwiseProduct
を使用してください。