3
のは、私は次のようDataFrame
を持っているとしましょう:PySparkのDataFrameの列配列に集計しますか?
[Row(user='bob', values=[0.5, 0.3, 0.2]),
Row(user='bob', values=[0.1, 0.3, 0.6]),
Row(user='bob', values=[0.8, 0.1, 0.1])]
私はuser
groupBy
たいと平均がこのような配列values
の各インデックスの上に取られavg(values)
のようなものだろう:
[Row(user='bob', avgerages=[0.466667, 0.233333, 0.3])]
をPySparkでこれをどうやって行うことができますか?
*このケースで何をしますか?また、Pandasのように、各グループをユーザー定義の関数に渡してそこで操作を行う方法がありますか?ありがとう。 –
'*'は標準のPython引数のアンパックです。いいえ、PythonはUDAFをサポートしていません。 RDDを直接使用することも、JVMを定義することもできます。 – zero323
ありがとう! RDDはここで理にかなっていると思う。 –