Spark "0を0に置き換える"性能比較

Spark 1.6.1、Scala api。Spark "0を0に置き換える"性能比較

データフレームでは、特定の列のすべてのNULL値を0に置き換える必要があります。これを行うには2つの方法があります。 1.

myDF.withColumn("pipConfidence", when($"mycol".isNull, 0).otherwise($"mycol"))

myDF.na.fill(0, Seq("mycol"))

彼らは本質的に同じまたは1つの方法が望ましいですか？

ありがとうございました！

出典

2016-10-25 user2628641

同じではありませんが、パフォーマンスは似ている必要があります。 na.fillは3210を使用しますが、NaNとNULLsの代わりにNULLSを置き換えます。

val y = when($"x" === 0, $"x".cast("double")).when($"x" === 1, lit(null)).otherwise(lit("NaN").cast("double")) 
val df = spark.range(0, 3).toDF("x").withColumn("y", y) 

df.withColumn("y", when($"y".isNull, 0.0).otherwise($"y")).show 
df.na.fill(0.0, Seq("y")).show

出典

2016-10-25 18:28:49

Spark "0を0に置き換える"性能比較

答えて

関連する問題