2017-09-13 7 views
0

セルに格納されているリストの最小値を見つけるにはどうすればよいですか? 私はudfを行うことができますが、それは過度のように感じます。 関数はpyspark.sql.functionsからのみ動作します(つまり、groupByの結果)。ただ、ソートリストのPySparkの最小値

min_ = udf(lambda inarr: __builtins__.min(inarr), IntegerType()) 

答えて

1

、あなたはまだ、たとえば、__builtins__接頭辞とそれにアクセスすることができます。

df.sort(col, ascending=True) 
+0

udfsをまったく使用しない方法はありますか? – ashim

0

をしてから最初の値/行を取る:あなたはpyspark.sql.functionsとPythonのminが覆われているインポートした場合

min_ = udf(lambda inarr: min(inarr), IntegerType()) 
myDataFrameWithMin = myDataFrame.withColumn('min_value', min_(F.col('position_list'))) 
関連する問題