1
私は実際にpysparkには新しく、いくつかのデータ操作をしようとしています。 私はたとえば以下のようなデータフレームがあります。このDFでpysparkで算術演算を行った後の列の追加
Trxn Cust_ID Group
3370 A 1
8809 C 2
3525 B 3
8260 A 3
6349 B 3
3359 C 3
3701 NULL 3
5572 NULL 2
2580 A 1
を、Trxnのはユニークであり、cust_id
年代は、反復することができ、すべてのcust_id
は、いくつかのグループに属しています。 array(Group_1, Group_2.. so on)
のような新しいグループの列名を持つ最終データフレームが必要です。ここでは、各グループに属するのはcust_id
です。以下は出力例です。
Trxn Cust_ID Group Group_1 Group_2 Group_3
3370 A 1 2 0 1
8809 C 2 0 1 1
3525 B 3 0 0 2
8260 A 3 2 0 1
6349 B 3 0 0 2
3359 C 3 0 1 1
3701 NULL 3 0 1 1
5572 NULL 2 0 1 1
2580 A 1 2 0 1
この正確な出力をpysparkで取得する方法を教えてもらえますか?どんな助けやヒントも高く評価されます。