リストのPySparkの最小値

セルに格納されているリストの最小値を見つけるにはどうすればよいですか？私はudfを行うことができますが、それは過度のように感じます。関数はpyspark.sql.functionsからのみ動作します（つまり、groupByの結果）。ただ、ソートリストのPySparkの最小値

min_ = udf(lambda inarr: __builtins__.min(inarr), IntegerType())

2017-09-13 ashim

、あなたはまだ、たとえば、__builtins__接頭辞とそれにアクセスすることができます。

df.sort(col, ascending=True)

2017-09-13 19:29:57 Mariusz

udfsをまったく使用しない方法はありますか？ – ashim

をしてから最初の値/行を取る：あなたはpyspark.sql.functionsとPythonのminが覆われているインポートした場合

min_ = udf(lambda inarr: min(inarr), IntegerType()) 
myDataFrameWithMin = myDataFrame.withColumn('min_value', min_(F.col('position_list')))

2018-01-17 20:04:40

答えて