スパークデータフレームで配列<String>を処理するには？

私はJSONデータセットを持っており、それは次のようにフォーマットされます。スパークデータフレームで配列<String>を処理するには？

val data = spark.read.json("user.json").select("user_id","friends").show() 
+--------------------+--------------------+ 
|    user_id|    friends| 
+--------------------+--------------------+ 
|18kPq7GPye-YQ3LyK...|[rpOyqD_893cqmDAt...| 
|rpOyqD_893cqmDAtJ...|[18kPq7GPye-YQ3Ly...| 
|4U9kSBLuBDU391x6b...|[18kPq7GPye-YQ3Ly...| 
|fHtTaujcyKvXglE33...|[18kPq7GPye-YQ3Ly...| 
+--------------------+--------------------+ 
data: org.apache.spark.sql.DataFrame = [user_id: string, friends: array<string>]

どのように私は[USER_ID：文字列、友人：文字列]にそれを変換することができ、例えば：

+--------------------+--------------------+ 
|    user_id|    friend| 
+--------------------+--------------------+ 
|18kPq7GPye-YQ3LyK...| rpOyqD_893cqmDAt...| 
|18kPq7GPye-YQ3LyK...| 18kPq7GPye-YQ3Ly...| 
|4U9kSBLuBDU391x6b...| 18kPq7GPye-YQ3Ly...| 
|fHtTaujcyKvXglE33...| 18kPq7GPye-YQ3Ly...| 
+--------------------+--------------------+

どのように取得することができますこのデータフレーム？

出典

2017-07-04 Pi Pi

あなたは、文字列の配列を連結し、所定のセパレータを使用して単一の文字列カラムに一緒にのみストリング

data.withColumn("friends", concat_ws("",col("friends")))

concat_ws(java.lang.String sep, Column... exprs)連結し、複数の入力文字列列を取得するconcat_ws関数を使用することができます。

それとも、あなたがユーザーのために、配列の値を取得しようとしているなら、あなたは

data.withColumn("friends", explode($"friends"))

として explode方法を使用することができます

import org.apache.spark.sql.functions._ 

val value = udf((arr: Seq[String]) => arr.mkString(" ")) 

val newDf = data.withColumn("hobbies", value($"friends"))

次のように文字列に配列を変換する簡単なUDFを使用することができます

explode（Column e）指定された配列またはマップ列の各要素の新しい行を作成します。

@rameshが

data.withColumn("friends", $"friends"(0))

は、この情報がお役に立てば幸いとして、あなたが最初の要素を取得することができます示唆したように、あなたは、1つだけのデータを取得しようとしている場合は！

出典

2017-07-04 12:53:18

私は1つの行の友人にわずか1人の友人を取得したいと思います。 –

1つのデータだけが必要な場合は、@ramesh suggestとして使用できます。 –

更新された回答を確認してください –

あなたがarrayから最初の友人を選択します

data.select($"user_id", $"friends"(0)).show(false)

このようfriendsご希望の友の配列から選択することができます。

出典

2017-07-04 12:52:29

はい、私が望む友人を得ることができます。しかし、どうすればすべての（ユーザーID、友達）ペアを取得し、それを1つのデータフレームに格納できますか？ –

あなたはすでに答えがあります:)あなたのために幸せです:) –

スパークデータフレームで配列<String>を処理するには？

答えて

関連する問題