Spark SQLでNULLを変更する

列を昇順と降順に並べ替えることができる必要があります。また、NULLを先頭にするか、NULLを最後にすることができる必要があります。 RDDを使用して、sortByKeyメソッドをカスタムコンパレータで使用できます。データセットAPIを使用して対応するアプローチがあるかどうか疑問に思っていました。私は列にdesc/ascを追加する方法を見ていますが、nullsを注文する手掛かりはありません。Spark SQLでNULLを変更する

出典

2016-09-08 John Leach

pull requestがマスターブランチにプッシュされるのを待つ必要があるようです。

出典

2016-09-09 08:25:31

Oleksandrに言及されているように、これに対してプルリクエストがありました。今、あなたは、必要に応じて「最初のヌル」または「最後のヌル」

scala> spark.sql("select * from spark_10747 order by col3 nulls last").show 
+----+----+----+ 
|col1|col2|col3| 
+----+----+----+ 
| 6| 7| 4| 
| 6| 11| 4| 
| 6| 15| 8| 
| 6| 15| 8| 
| 6| 7| 8| 
| 6| 12| 10| 
| 6| 9| 10| 
| 6| 13|null| 
| 6| 10|null| 
+----+----+----+

出典

2017-12-10 21:44:13 xmorera

を使用することができますが、データセットのAPIでそれを行うにもすることができます

scala>  val df = Seq("a", "b", null).toDF("x") 
df: org.apache.spark.sql.DataFrame = [x: string] 

scala> df.select('*).orderBy('x.asc_nulls_last).show 
+----+ 
| x| 
+----+ 
| a| 
| b| 
|null| 
+----+ 


scala> df.select('*).orderBy('x.asc_nulls_first).show 
+----+ 
| x| 
+----+ 
|null| 
| a| 
| b| 
+----+

同じことがdesc_nulls_lastとdesc_nulls_firstで動作します。

出典

2018-01-22 11:12:31

答えて

関連する問題