配列から、新しい列にPysparkデータフレームの列を変換します私はこのような構造でPyspark DATAFRAMEをしました
root
|-- Id: string (nullable = true)
|-- Q: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- pr: string (nullable = true)
| | |-- qt: double (nullable = true)
に似た何か:
+----+--------------------- ... --+
| Id | Q |
+----+---------------------- ... -+
| 001| [ [pr1,1.9], [pr3,2.0]...] |
| 002| [ [pr2,1.0], [pr9,3.9]...] |
| 003| [ [pr2,9.0], ... ] |
...
私は(列にQ列に変換したいウォルド名前pr値qt)。 また、同じ列をマージ(追加)して重複した列を避けたいと思います。
+----+-----+-----+------+ ... ----+
| Id | pr1 | pr2 | pr3 | ... prn |
+----+-----+-----+------+ ... ----+
| 001| 1.9 | 0.0 | 2.0 | ... |
| 002| 0.0 | 1.0 | 0 | ... |
| 003| 0.0 | 9.0 | ... | ... |
...
この変換はどのように実行できますか。 事前に!! Julián。
こんにちは、THX – ags29
はいags29、答えは働いていたかあなたが他の質問がある場合は私に知らせて、ありがとうございました!!! –