RDD [(K、V)]を受け入れるように指定されたreduceByKey
を認識してスパークすることを新しくしました。どのような私には明確ではないことは値がリスト/タプルであるときは、この機能を適用する方法をです...私のRDDは(Cluster:String, (Unique_ID:String, Count:Int))
の形で終わっており、さまざまなマッピングおよびフィルタリング操作後指定された値要素のReduceByKey
、ここでI同じクラスタに属する多くの要素、例えばを持つことができます。
Array((a,(lkn,12)), (a,(hdha,2)), (a,(naa,35)), (b, (cdas,20)) ...)
今はそれぞれが最高の数(クラスタごとにその一つのエントリ)を持つ要素をクラスタ化するために、検索しreduceByKey
を使用したいです。上記の例では、クラスタa
の場合は(a,(naa,35))
になります。
単純な(キー、値)のペアがreduceByKey
とmath.max
の場合、クラスタごとに最大値を見つける方法を知ることができます。しかし、値が値のリスト/タプルを表すとき、これをどのように拡張するのか分かりません。
ここで間違った機能を使用していますか?
あなただけhttp://stackoverflow.com/questions/15769366/how-to-find-max-in-a-list-of-tuplesのようmaxByを使用することはできますか? – C4stor
@ C4stor彼らは 'maxBy'を持たない' RDD'を使って作業しています –