0
rddMax = rdd.map(lambda x: (x['Id'], int(x['value1']))).reduceByKey(max)
を行い、その後、戻ってそれに参加するが、私はちょうどキーでグループ化された2の最大値を求め、これらの値に関連付けられている全体RDDを返す1つのクリーンな操作をしたいこと。
私はまた、どのような状況の下でのデータフレーム内のデータを置くために何の希望
おかげ
これは古典的なソリューションです。 – convolutionBoy
私は元の質問に変更を加えたので、最初の声明なしで動作しますが、ありがとう – convolutionBoy