セルに格納されているリストの最小値を見つけるにはどうすればよいですか? 私はudfを行うことができますが、それは過度のように感じます。 関数はpyspark.sql.functions
からのみ動作します(つまり、groupByの結果)。ただ、ソートリストのPySparkの最小値
min_ = udf(lambda inarr: __builtins__.min(inarr), IntegerType())
セルに格納されているリストの最小値を見つけるにはどうすればよいですか? 私はudfを行うことができますが、それは過度のように感じます。 関数はpyspark.sql.functions
からのみ動作します(つまり、groupByの結果)。ただ、ソートリストのPySparkの最小値
min_ = udf(lambda inarr: __builtins__.min(inarr), IntegerType())
、あなたはまだ、たとえば、__builtins__
接頭辞とそれにアクセスすることができます。
df.sort(col, ascending=True)
をしてから最初の値/行を取る:あなたはpyspark.sql.functions
とPythonのmin
が覆われているインポートした場合
min_ = udf(lambda inarr: min(inarr), IntegerType())
myDataFrameWithMin = myDataFrame.withColumn('min_value', min_(F.col('position_list')))
udfsをまったく使用しない方法はありますか? – ashim