Spark Dataframeには、2列のテーブルが含まれています。 ステータス、カテゴリ。sparkデータフレームでgroupByを適用した後のフィルタリングされた列の割合
Status has values----'y' and 'n'
Category has values -'a', 'b' and 'c'
spark(Scala)の各カテゴリでステータス「y」のパーセンテージを見つける方法はありますか? 私はこれまでできることができます。
df.groupBy("category").agg(count("*"))
df.filter(col("status")==="y").groupBy("category").count()
その組み合わせは何がエラー
役立つことを願うヴァルnumSum = num.first()(0).toString.toIntは、あなたがNUMとはどういう意味ですか? – bestie
df内のステータス "y"の発生回数をカウントしています。私の例では、4の値が得られます。 –
var num = df.groupBy( "category").gg(count( "*"))でなければなりません。私は、各カテゴリの 'y'の割合が0であっても、 – bestie