2016-12-18 11 views
0

pysparkでreduceを指定して最大値を検出すると、以下の予期しない結果が発生します。予期しない縮退エラー

agg.reduce(lambda a,b : a if a > b else b) 

と私のサンプルデータが

(u'2013-10-17', 80325.0) 
(u'2014-01-01', 68521.0) 
(u'2013-11-10', 83691.0) 
(u'2013-11-14', 149289.0) 
(u'2013-11-18', 94756.0) 
(u'2014-01-30', 126171.0) 

で、結果はそれがより多くなりましたはずです

(u'2014-07-24' 、97088.0)

です94756

ありがとう sPradeep

答えて

1

あなたはこのように、タプルに第2の値を比較する必要があります。

agg.reduce(lambda a,b : a if a[1] > b[1] else b) 
+0

私は後半の応答のための謝罪、助けてくれてありがとう@Mariusz –

1

をするだけkeymaxを使用します。

rdd.max(key=lambda x: x[1]) 
関連する問題