sparkデータフレームでgroupByを適用した後のフィルタリングされた列の割合

Spark Dataframeには、2列のテーブルが含まれています。ステータス、カテゴリ。sparkデータフレームでgroupByを適用した後のフィルタリングされた列の割合

Status has values----'y' and 'n' 
Category has values -'a', 'b' and 'c'

spark（Scala）の各カテゴリでステータス「y」のパーセンテージを見つける方法はありますか？私はこれまでできることができます。

df.groupBy("category").agg(count("*")) 
df.filter(col("status")==="y").groupBy("category").count()

その組み合わせは何がエラー

出典

2017-10-23 bestie

val dfN = df.filter(col("status").equalTo("y"))

val dfSum = dfN.groupBy("category").agg(count("status").as("Sum")) 
val numSum = num.first()(0).toString.toInt 

val dfResult = dfSum.select(col("category"), lit(col("Sum") * 100/numSum).as("percentage"))

出典

2017-10-23 23:58:40

役立つことを願うヴァルnumSum = num.first（）（0）.toString.toIntは、あなたがNUMとはどういう意味ですか？ – bestie

df内のステータス "y"の発生回数をカウントしています。私の例では、4の値が得られます。 –

var num = df.groupBy（ "category"）.gg（count（ "*"））でなければなりません。私は、各カテゴリの 'y'の割合が0であっても、 – bestie

GroupByとaggregationがそれぞれのcountを見つけるのに十分でなければならない私を与えた後、個々CategoryのそれぞれStatus。 Window関数を使用して、の合計sumを見つけることができます。そして最後に、filterを計算して、必要なStatusを出すことができます。

import org.apache.spark.sql.functions._ 
import org.apache.spark.sql.expressions.Window 

def windowSpec = Window.partitionBy("Category") 
val tempdf = df.groupBy("Status", "Category").agg(count("Category").as("ind_count")) 
       .withColumn("tot_count", sum("ind_count").over(windowSpec)) 

    tempdf.filter($"Status" === "y").select($"Status", $"Category", (($"ind_count"/$"tot_count")*100).as("y_percentage")).show(false)

私は、答えはこの行で

出典

2017-10-24 00:24:07

構文エラーを取得中です。私は輸入品を持っています。私はtoreeでApacheを実行しています。 – bestie

構文エラーは何ですか？ –

def windowSpec = Window.partitionBy（ "Category"）この行を追加すると、エラーが発生します。 apache toreeがこのエラーのスタックトレースを出力していません。名前：構文エラー。メッセージ： StackTrace： – bestie

sparkデータフレームでgroupByを適用した後のフィルタリングされた列の割合

答えて

関連する問題