2017-10-18 13 views
0

pysparkデータフレームで2レベルのグループ化を行う必要があります。 マイ仮:pyspark groupedDataオブジェクトをデータフレームに変換する

'GroupedData' object has no attribute 'groupby' 

私は私が最初にpySpark DFにグループ化されたオブジェクトを変換する必要がありますね:

grouped_df=df.groupby(["A","B","C"]) 
grouped_df.groupby(["C"]).count() 

しかし、私は次のエラーを取得します。しかし、私はそれをすることはできません。

提案がありますか?

+0

グループの2レベルが必要とされる理由は?あなたはあなたの入力と出力を投稿できますか? – Suresh

答えて

1

私は同じ問題がありました。私が周りにいる方法は、GroupedDataオブジェクトではなく、Spark DataFrameを返すため、最初のgroupbyの後に最初に "count()"を実行することでした。その後、返されたDataFrameで別のグループを実行できます。

ので、試してみてください。

grouped_df=df.groupby(["A","B","C"]).count() 
grouped_df.groupby(["C"]).count() 
-1

最初のgroupByに集約関数を適用する必要があります。

grouped_df= df.groupby(["A","B","C"]).count() 
g_grouped_df = grouped_df.groupby(["C"]).count() 
関連する問題