0
をpysparkそれは次のように削減します。リオーダー列の値が
+-----+--------+-------+
| val | Feat1 | Feat2 |
+-----+--------+-------+
| 1 | f1a | f2a |
| 2 | f1a | f2b |
| 8 | f1b | f2f |
| 9 | f1a | f2d |
| 4 | f1b | f2c |
| 6 | f1b | f2a |
| 1 | f1c | f2c |
| 3 | f1c | f2g |
| 9 | f1c | f2e |
+-----+--------+-------+
私は賢明な次のような別のフィールドFeat1
に基づいてグループ注文するval
列が必要です。
+-----+--------+-------+
| val | Feat1 | Feat2 |
+-----+--------+-------+
| 1 | f1a | f2a |
| 2 | f1a | f2b |
| 3 | f1a | f2d |
| 1 | f1b | f2c |
| 2 | f1b | f2a |
| 3 | f1b | f2f |
| 1 | f1c | f2c |
| 2 | f1c | f2g |
| 3 | f1c | f2e |
+-----+--------+-------+
val
値はFeat2
の順序に依存しないが、代わりにBASを命じているNOTE元のval
値で編集しました。
PySparkの列の値を必要に応じて並べ替えるコマンドはありますか?
:Questionは同じものが存在しますが、SQL-Liteに特有のものです。
、質問で指摘したように主な要件は、私が必要とすることです'val'値は1、2、3 ...に初期化され、最初と同じに保たれません。 – Sarvesh
あなたの要件を満たす場合は、この回答にマークを付けてください。 –
ありがとう、これは正常に動作しています – Sarvesh