私は実際にpysparkには新しく、いくつかのデータ操作をしようとしています。 私はたとえば以下のようなデータフレームがあります。このDFで Trxn Cust_ID Group
3370 A 1
8809 C 2
3525 B 3
8260 A 3
6349 B 3
3359 C 3
3701 NULL 3
5572 NULL 2
2580 A 1
を、Trx
私はID、オフセット、テキストを含むテーブルを持っています。仮定入力: df.groupby(id).agg(concat_ws("",collect_list(text))
しかし、私はテキスト内の秩序を確保する方法がわからない: id text
1 hello world
2 foo
私が使用している: id offset text
1 1 hello
1 7 world
私は以下の写真のようなデータフレームを持っています。私はトレーニングとテストを作成したいと思います。データセットは、CustomerIDとInvoiceNoによって並べ替えられます。顧客ごとに、その顧客の最後の2行を除くすべての行をトレーニングセットとし、各顧客の2番目から最後の行をトレーニングセットにしたいと考えています。 結果は理想的には1巨大トレーニングセットと1テストセットになります。 P