データフレームがあり、列の平均値を取得したい。私が次のようにしたら:変数の列の平均値または平均値を設定する
avg_NoPItems = df.groupBy().mean('NoPItems').collect()
後で私はデータフレームオブジェクトを取得するので、値と比較することはできません。だから、平均をデータフレームではない数値としてどのように得ることができますか?
PD:私はこれを試してみましたが、動作しません:。。
avg_NoPItems = df.groupBy().mean('NoPItems').collect()[0]
あなたがして、グループを使用する理由、私はあなたが単に(平均( "NoPItems")を選択することができると思う:df.select(平均( "NoPItems")を意味する」(として。 ")))。first.getAs [ダブル]("平均 ") – Mehrez
私はそれを使用することはできません、pysparkは' .... as( "mean"))...と無効なsintaxisを言った –
申し訳ありません最初の["平均"] ' – Mehrez