0
私はアイテムの類似性によってグループ化したいアイテムのセットを含む次のRDDを持っています(同じセット内のアイテムは類似しているとみなされます)。類似性は推移的であり、一つの共通のアイテムも、同様であると考えられる)複数の値を返すようにスパークRDDを減らす
入力RDD:
Set(w1, w2)
Set(w1, w2, w3, w4)
Set(w5, w2, w6)
Set(w7, w8, w9)
Set(w10, w5, w8) --> All the first 5 set elements are similar as each of the sets have atleast one common item
Set(w11, w12, w13)
Iは
Set(w1, w2, w3, w4, w5, w6, w7, w8, w9, w10)
Set(w11, w12, w13)
任意suggeに低減するRDD上記希望どのように私はこれを行うことができたのstions?
data.reduce((a,b) => if (a.intersect(b).size > 0) a ++ b ***else (a,b)***)
ありがとう:私は、彼らがどんな共通の要素が含まれていない場合、私は二組の削減無視することができどこ下記のような何かを行うことができません。
優れています。ありがとう。 SparkのGraphxライブラリを探検したことはありません。 – soontobeared