pysparkで算術演算を行った後の列の追加

私は実際にpysparkには新しく、いくつかのデータ操作をしようとしています。私はたとえば以下のようなデータフレームがあります。このDFでpysparkで算術演算を行った後の列の追加

Trxn Cust_ID Group 
3370 A  1 
8809 C  2 
3525 B  3 
8260 A  3 
6349 B  3 
3359 C  3 
3701 NULL 3 
5572 NULL 2 
2580 A  1

を、Trxnのはユニークであり、cust_id年代は、反復することができ、すべてのcust_idは、いくつかのグループに属しています。 array(Group_1, Group_2.. so on)のような新しいグループの列名を持つ最終データフレームが必要です。ここでは、各グループに属するのはcust_idです。以下は出力例です。

Trxn Cust_ID Group Group_1 Group_2 Group_3 
3370 A  1  2  0  1 
8809 C  2  0  1  1 
3525 B  3  0  0  2 
8260 A  3  2  0  1 
6349 B  3  0  0  2 
3359 C  3  0  1  1 
3701 NULL 3  0  1  1 
5572 NULL 2  0  1  1 
2580 A  1  2  0  1

この正確な出力をpysparkで取得する方法を教えてもらえますか？どんな助けやヒントも高く評価されます。

出典

2017-08-11 Anupam Das

pysparkで算術演算を行った後の列の追加

答えて

関連する問題