0
私はこのようになりますスパークDATAFRAME持って:私は何をしたいかDATAFRAME変換
root
|-- employeeName: string (nullable = true)
|-- employeeId: string (nullable = true)
|-- employeeEmail: string (nullable = true)
|-- company: struct (nullable = true)
| |-- companyName: string (nullable = true)
| |-- companyId: string (nullable = true)
| |-- details: struct (nullable = true)
| | |-- founded: string (nullable = true)
| | |-- address: string (nullable = true)
| | |-- industry: string (nullable = true)
は、企業IDによるグループであり、このような企業ごとの従業員の配列を取得:
root
|-- company: struct (nullable = true)
| |-- companyName: string (nullable = true)
| |-- companyId: string (nullable = true)
| |-- details: struct (nullable = true)
| | |-- founded: string (nullable = true)
| | |-- address: string (nullable = true)
| | |-- industry: string (nullable = true)
|-- employees: array (nullable = true)
| |-- employee: struct (nullable = true)
| | |-- employeeName: string (nullable = true)
| | |-- employeeId: string (nullable = true)
| | |-- employeeEmail: string (nullable = true)
を
もちろん、mapとreduceByKeyを使って、(company、employee):(String、String)のペアを持っていれば簡単にできます。しかし、入れ子にされた情報がすべて異なると、どのアプローチをとるべきかはわかりません。
すべてを平坦化する必要がありますか?同様のことをする例は非常に役に立ちます。あなたは、次の操作を行うことができ
ありがとう、私はそれを同様の方法で解決することができました。 – Dmitri