Apacheスパークでは、sparkContext.union()
メソッドを使用して複数のRDDを効率的に結合できます。誰かが複数のRDDを交差させたい場合、似たようなものがありますか?私はsparkContextメソッドを検索しましたが、何か他の場所を見つけることができませんでした。 1つの解決策は、rddsを結合してから重複を取り出すことですが、効率的であるとは思いません。私は、キー/値ペアのコレクションを次の例を持っていると仮定すると:複数のRDDSだけではなく、2のためにApache Spark - 複数のRDDの交差
(1,2.0) (1,1.0)
しかし、もちろん:
val rdd1 = sc.parallelize(Seq((1,1.0),(2,1.0)))
val rdd2 = sc.parallelize(Seq((1,2.0),(3,4.0),(3,1.0)))
は、私は、次の要素を持つ新しいコレクションを取得したいです。
なぜ複数のrddを交差させたいのですか?どのような基準で? – Shankar
私の質問は今理解している方が良いと思います。 –