私はSpark 1.6で働いています(残念ながら)。私は値として0と1を持つ多くの列を持つデータフレームを持っています。私は1列あたり1の割合を取っていきたいです。 だから私は実行します。カラムあたりのpysparkデータフレームの効率を効率的に取る
rowsNum = dfBinary.count()
dfStat = dfBinary.select([(count(when(col(c) == 1 , c))/rowsNum).
alias(c) for c in dfBinary.columns])
これを行うには、より効率的な方法はありますか?たぶん、列ごとの合計で関数を組み込んで(私は何も見つかりませんでした)。