データフレーム内の列の平均を計算していますが、すべての値がゼロになりました。なぜこれが起こっているのか誰かが私を助けることができますか？以下は、列の変換前後のコードと表です。Pyspark：平均を新しい列としてDataFrameに追加する

列

result.select("dis_price_released").show(10) 
+------------------+ 
|dis_price_released| 
+------------------+ 
|    0.0| 
|    4.0| 
|    4.0| 
|    4.0| 
|    1.0| 
|    4.0| 
|    4.0| 
|    0.0| 
|    4.0| 
|    0.0| 
+------------------+

を平均値を計算し、「平均」追加する前に平均を計算し、列

w = Window().partitionBy("dis_price_released").rowsBetween(-sys.maxsize, sys.maxsize) 
df2 = result.withColumn("mean", avg("dis_price_released").over(w)) 
df2.select("dis_price_released", "mean").show(10) 

+------------------+----+ 
|dis_price_released|mean| 
+------------------+----+ 
|    0.0| 0.0| 
|    0.0| 0.0| 
|    0.0| 0.0| 
|    0.0| 0.0| 
|    0.0| 0.0| 
|    0.0| 0.0| 
|    0.0| 0.0| 
|    0.0| 0.0| 
|    0.0| 0.0| 
|    0.0| 0.0| 
+------------------+----+

出典

2017-06-06 thetna

いただきまし '-sys.maxsize、sys.maxsize'を解決する別の方法です、あなたは意味ローリングを計算していますか？ – mtoto

また、平均値を計算するのと同じ値でデータを分割するのはなぜですか？ – mtoto

@mtoto最初の質問は、すべての行を選択することです。上記の質問に、特定の「dis_price_released」列を選択します。私が間違っていれば私を修正してください。 – thetna

を意味追加した後、追加するlit()を使用し、その後、全体の列の最初のavgを計算することができますそれはあなたのDataFrameに変数として、窓関数のための必要はありません：

from pyspark.sql.functions import lit 

mean = df.groupBy().avg("dis_price_released").take(1)[0][0] 
df.withColumn("test", lit(mean)).show() 
+------------------+----+ 
|dis_price_released|test| 
+------------------+----+ 
|    0.0| 2.5| 
|    4.0| 2.5| 
|    4.0| 2.5| 
|    4.0| 2.5| 
|    1.0| 2.5| 
|    4.0| 2.5| 
|    4.0| 2.5| 
|    0.0| 2.5| 
|    4.0| 2.5| 
|    0.0| 2.5| 
+------------------+----+

出典

2017-06-06 07:57:23 mtoto

ありがとうございます。しかし、**あなたは何が**（0）[0] **を取るか説明できますか？ – thetna

'take（1）'の結果であるリスト内の 'Row'オブジェクトから実際の数を抽出します。 – mtoto

これはまだ問題

df.withColumn("mean", lit(df.select(avg("dis_price_released").as("temp")).first().getAs("temp"))).show

出典

2017-06-23 08:52:47

Pyspark：平均を新しい列としてDataFrameに追加する

列

を平均値を計算し、「平均」追加する前に平均を計算し、列

答えて

関連する問題