このDataFrameをdf
に、id
,type
およびactivity
の3つの列で表示する方法を教えてください。列単位でデータをグループ化し、グループごとの観測数を計算する方法
val myData = (Seq(("aa1", "GROUP_A", "10"),("aa1","GROUP_A", "12"),("aa2","GROUP_A", "hy"),("aa2", "GROUP_B", "14"),
("aa3","GROUP_B", "11"),("aa3","GROUP_B","12"),("aa2", "GROUP_3", "12"))
val df = sc.parallelize(myData).toDF()
私はtype
によってデータをグループ化する必要があるし、各id
のための活動の数を計算します。これは期待された結果である:
type id count
GROUP_A aa1 2
GROUP_A aa2 1
GROUP_B aa3 3
GROUP_B aa2 1
これは私が試したものです:
df.groupBy("type","id").count().sort("count").show()
それが正しい結果を与えるものではありませんが。
ありがとうございます。 'aa..'が' id'なので 'toDF(" id "、" type "、" count ")'でなければなりません。それを確認させて。 – Dinosaurius
私の答えを編集したので、どのようにするべきか –