の配列として、二つ以上の文字列をマージし、同様に彼らが持っている:私はScalaでデータフレームとしてそれらをロードすることができScalaは私が多くのファイルでJSON文字列のラインがたくさんある1つのJSONプロパティ
{ "id":123, "team":"A", "etc":"...", ...}
{ "id":124, "team":"A", "etc":"...", ...}
{ "id":124, "team":"B", "etc":"...", ...}
{ "id":125, "team":"A", "etc":"...", ...}
。
IDでグループ化することで、私は次のように取得したい:私はこれを行うことができますどのように、Scalaで
{ "id":123, "team":"A", "etc":"...", ...}
{ "id":124, "team":["A","B"], "etc":"...", ...}
{ "id":125, "team":"A", "etc":"...", ...}
?
注:各jsonにいくつのサブプロパティがあるのかわかりません。ほとんどのプロパティはjsonのラインで共通です。しかし、いくつかのjsonの行でいくつかの固有のプロパティを持つことは可能です。
は、あなたは、Apache-スパークでこれをやりたいですか? –
はい! apache-spark。 – Daebarkee