私はspaa/sparkを初めて使用しています。ペアのリストからトリプルのすべてのサブセットがペアのリストに存在するようなリストからトリプルのリストを作成する
私は、次の形式のRDDを持っている:
//user_freq_pair : (1,List((98,101), (98,100), (98,102), (100,101), (101,102)))
scala> user_freq_pair
res17: org.apache.spark.rdd.RDD[(Int, List[(Int, Int)])]
私はダブルスからトリプルの新しいリストを計算したいが、トリプルのリストは、それがから我々元のリストに存在するサブセットだすべてを持っている必要があります計算している。したがって、ペアリストを単純に平坦化してからすべてのトリプルを生成することはできません。我々は可能な4つのトリプルからのみ、以下のトリプルを持つことになり、上記の例で
(。我々は(1,List(98,100,101,102)
.NOを持っている平ら場合は4から3を選択する方法のは、4つの方法です):
//user_triple: (1,List((98,100,101)) because (98,101),(98,100),(100,101) all three are present in the original list
scala> user_triple
res18: org.apache.spark.rdd.RDD[(Int, List[(Int, Int,Int)])]
私はRDDのための関数を書く方法と上記の課題を達成する方法がわかりません。
List(98,101,102)も有効なトリプレットですか? –
はい、ありがとうございました –
List [List [Int]]の代わりにList [(Int、Int、Int)]を生成する方法 –