私は次のコードを使って1年に学生を集めています。目的は、毎年の学生の総数を知ることです。pysparkのgroupByの後にユニークIDをカウントするには
from pyspark.sql.functions import col
import pyspark.sql.functions as fn
gr = Df2.groupby(['Year'])
df_grouped =
gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))
結果は次のとおりです。
[年度別の生徒] [1]
私は結果が間違っていると巨大であるので非常に多くのID年代が繰り返されていることを発見した問題。
私は年に学生を集計し、年間の学生の総数を数え、IDの繰り返しを控えたいと思います。
私は質問がはっきりしていることを願っています。新しいメンバーI'am おかげ
これは、パンダのように見えるしていませんか? –
ハイブテーブルからデータを呼び出しました – Lizou