2017-12-14 18 views
-1

私は数字の列を持つpysparkデータフレームを持っています。その列を合計し、その結果をPython変数のintとして返す必要があります。PySpark - データフレーム内の列を合計し、結果をintとして返します

df = spark.createDataFrame([("A", 20), ("B", 30), ("D", 80)],["Letter", "Number"]) 

私は次のようにして列を合計します。

df.groupBy().sum() 

しかし、データフレームが戻ってきます。

+-----------+ 
|sum(Number)| 
+-----------+ 
|  130| 
+-----------+ 

私は、プログラム内でどこで使用される変数に格納されたintとして返されますか?

result = 130 

答えて

0

次のように動作するはずです:

df.groupBy().sum().rdd.map(lambda x: x[0]).collect() 
関連する問題