2017-08-11 9 views
1

私は実際にpysparkには新しく、いくつかのデータ操作をしようとしています。 私はたとえば以下のようなデータフレームがあります。このDFでpysparkで算術演算を行った後の列の追加

Trxn Cust_ID Group 
3370 A  1 
8809 C  2 
3525 B  3 
8260 A  3 
6349 B  3 
3359 C  3 
3701 NULL 3 
5572 NULL 2 
2580 A  1 

を、Trxnのはユニークであり、cust_id年代は、反復することができ、すべてのcust_idは、いくつかのグループに属しています。 array(Group_1, Group_2.. so on)のような新しいグループの列名を持つ最終データフレームが必要です。ここでは、各グループに属するのはcust_idです。以下は出力例です。

Trxn Cust_ID Group Group_1 Group_2 Group_3 
3370 A  1  2  0  1 
8809 C  2  0  1  1 
3525 B  3  0  0  2 
8260 A  3  2  0  1 
6349 B  3  0  0  2 
3359 C  3  0  1  1 
3701 NULL 3  0  1  1 
5572 NULL 2  0  1  1 
2580 A  1  2  0  1 

この正確な出力をpysparkで取得する方法を教えてもらえますか?どんな助けやヒントも高く評価されます。

答えて