2017-10-17 14 views
1

私はSpark RDDを使用しています。私は、タイプSetの2つのRDDを追加/連結する必要があります。Apache SparkでSetタイプの2つのRDDを追加/連結します

scala> var ek: RDD[Set[Int]] = sc.parallelize(Seq(Set(7))) 
ek: org.apache.spark.rdd.RDD[Set[Int]] = ParallelCollectionRDD[31] at parallelize at <console>:32 

scala> val vi: RDD[Set[Int]] = sc.parallelize(Seq(Set(3,5))) 
vi: org.apache.spark.rdd.RDD[Set[Int]] = ParallelCollectionRDD[32] at parallelize at <console>:32 

scala> val z = vi.union(ek) 
z: org.apache.spark.rdd.RDD[Set[Int]] = UnionRDD[34] at union at <console>:36 

scala> z.collect 
res15: Array[Set[Int]] = Array(Set(3, 5), Set(7)) 

scala> val t = visited++ek 
t: org.apache.spark.rdd.RDD[Set[Int]] = UnionRDD[40] at $plus$plus at <console>:36 

scala> t.collect 
res30: Array[Set[Int]] = Array(Set(3, 5), Set(7)) 

私は2つの演算子、union++を使用して試してみました。ただし、期待した結果が得られません。あるセットの

scala> val u = Set(3,5) 
u: scala.collection.immutable.Set[Int] = Set(3, 5) 

scala> val o = Set(7) 
o: scala.collection.immutable.Set[Int] = Set(7) 

scala> u.union(o) 
res28: scala.collection.immutable.Set[Int] = Set(3, 5, 7) 

誰もがあなたがリストに労働組合を適用しているか、それを

答えて

2

を行うには、私に方向を与えることができます(配列):期待される結果は、このようにする必要があり

Array(Set(3, 5), Set(7)) 

なぜ要素は完全な集合であり、要素ではないのですか?試してみてください:

var ek = sc.parallelize(Set(7).toSeq) 
val vi = sc.parallelize(Set(3,5).toSeq) 
val z = vi.union(ek) 
関連する問題