0
私はクエリを持っています。 Pysparkで我々は(キー、値)に基づいて(SUM)の合計を取得する必要があるときに、私たちのクエリは次のように読み取りますPyspark - 最大/最小パラメータ
我々は(キー、値)のためのMAX/MIN値を見つける必要があるようRDD1 = RDD.reduceByKey(lambda x , y: x + y)
たちのクエリ
RDD1 = RDD.reduceByKey(lambda x , y: x if x[1] >= y[1] else y)
なぜ和データが同じでMAX/MINのために使用されx[1]
、Y[1]
を、使用しないように読み込み、?。疑いを明確にしてください。
Rgd's