0
からWrappedarrayをACCESするためにどのように私はこのようなデータフレームがあります。は、データフレームの地図
val x = sc.parallelize(Seq(
Array(("a", "1", "o"), ("a", "1", "n"), ("b", "1", "o"), ("a", "1", "n"), ("b", "4", "xxx")),
Array(("a", "1", "o"), ("a", "1", "n"), ("b", "1", "o"), ("a", "1", "n"), ("b", "4", "n")),
Array(("a", "1", "o"), ("a", "1", "n"), ("b", "4", "o"), ("a", "1", "n"), ("b", "3", "n")),
Array(("a", "1", "o"), ("a", "1", "n"), ("b", "4", "o"), ("a", "1", "n"), ("b", "3", "n"))
)).map(x => testSchema(x)).toDF("myArrays")
val y = x.withColumn("myKeys", lit("b"))
val getMap = udf((mouvements: mutable.WrappedArray[Row]) => {
val test = mouvements.toArray
.map(line => (line(0).toString, line(1).toString, line(2).toString))
.groupBy(_._1)
.map{case (k,values) => k -> values.map(x => (x._2, x._3))}
test})
val df_with_map = y.select($"myKeys", getMap($"myArrays") as "myMaps")
df_with_map show false
df_with_map printSchema
:このスキーマここ
root
|-- myKeys: string (nullable = false)
|-- myMaps: map (nullable = true)
| |-- key: string
| |-- value: array (valueContainsNull = true)
| | |-- element: struct (containsNull = true)
| | | |-- _1: string (nullable = true)
| | | |-- _2: string (nullable = true)
で
+------+------------------------------------------------------------------------------+
|myKeys|myMaps |
+------+------------------------------------------------------------------------------+
|b |Map(b -> WrappedArray([1,o], [4,xxx]), a -> WrappedArray([1,o], [1,n], [1,n]))|
|a |Map(b -> WrappedArray([1,o], [4,n]), a -> WrappedArray([4,c], [1,n], [1,n])) |
|a |Map(b -> WrappedArray([4,o], [3,n]), a -> WrappedArray([4,o], [1,n], [1,n])) |
|b |Map(b -> WrappedArray([4,a], [3,n]), a -> WrappedArray([1,o], [1,n], [1,n])) |
+------+------------------------------------------------------------------------------+
は、それを作成するためのコードです今、最初の要素が4に等しい配列の2番目の要素とmap equlasのキーをbにアクセスしたいと思います。ライン
val getMyValue = udf{(myKey: String, myMaps: Map[String, WrappedArray[Row]]) =>
val first_val= "4"
val myArrays = myMaps.get(myKey)
val res = myArrays.get.toArray.filter{x => x.getString(0) == first_val}
res
}
val df_value = df_with_map.select(getMyValue($"myKey",$"myMaps") as "myValue")
df_value show false
df_value printSchema
しかし、それは
java.lang.UnsupportedOperationException: Schema for type org.apache.spark.sql.Row is not supported
つのエラーを返す:
を私はすでに、これがこのUDFでそれをやってみてください。この+---+
|val|
+---+
|xxx|
|c |
|o |
|a |
+---+
のような結果を持っている必要があります
val getMyValue = udf{(myKey: String, myMaps: Map[String, WrappedArray[Row]]) =>
ご存知ですか?
ニースこの作品が、私は私の例があまりにも簡単だったと思います。私が持っている問題は、getItemメソッドを呼び出すことができないように、私が値を取得したいキーが選択前に分からないということです。私はそれをより包括的にするために質問を再提出するでしょう –
私の問題のより良い説明を与えるために私のポストを更新します –
私のDataFrameであなたのメソッドを呼び出すとき返す: org.apache.spark.sql.AnalysisException: StringType、ArrayType(StructType(StructField(_1、StringType、true));キャストできません(データ型の不一致により、キャストされた文字列型(Map>>) 、StructField(_2、StringType、true))、true)、true); それはあなたの例では動作しますが、私のためには動作しません。 –