私が唯一のフィールドfield1
持っているとき、私はpysparkのデータフレームのグループのデータにしたい、と次のように私はそれを実行します。2つのフィールドでデータをグループ化する方法は?
groups = df.select("field1").distinct().flatMap(lambda x: x).collect()
dfs = [df.where(df["field1"] == g) for g in groups]
を私はNデータフレームの、Nはgroups
のサイズであるのリストdfs
を取得します。今私はデータをグループ化するためにfield1
とfield2
を使いたいと思っています。
どうすればいいですか?
また、List of DataFrameを使用するのがよいアプローチであるかどうかを知りたいと思いますか?私はその後 forループを使用します:for d in dfs
。しかし、このforループは本当に遅いです。
あなたは正確に何をしたいのですが、groupBy( "field1"、 "field2")は機能しますか? – Fabich
データフレームを投稿する可能性はありますか? –