2017-02-07 23 views

答えて

1

簡単な操作groupByKey操作が必要です。

rdd.groupByKey().mapValues(lambda x: tuple(x.data)).collect() 

結果:septraが言ったように[('X02', ('Y01', 'Y06')), ('X01', ('Y01', 'Y02', 'Y03'))]

1

mapToPair(// with key as first column and the value will be rest of the record)を使用してRDDをPairRDDに変換し、結果のRDDにgroupByKeyを実行します。

0

、groupByKeyは何が必要methodis。さらに、すべての値に対する操作を特定のキーに適用する場合は、mapValues()メソッドでも同じことができます。このメソッドは、1つのメソッド(グループ化された値に適用するロジック)を取り、キーごとにグループ化されたすべての値に適用します。あなたは両方の操作をしたい場合は、 "reduceByKey"メソッドに行くことができます。 "reduceByKey()= groupByKey()+ mapValues()"

関連する問題