Spark-Coreで2つの異なるフィールドでソートを行うにはどうすればよいですか？

私はスパークにいくつかの基本的なプログラミングをやっているSpark-Coreで2つの異なるフィールドでソートを行うにはどうすればよいですか？

INPUTFILE：

マイ火花コード：

scala> val dataRDD = sc.textFile("/user/cloudera/inputfiles/year.txt") scala> val mapRDD = dataRDD.map(elem => elem.split(",")) scala> val keyValueRDD = mapRDD.map(elem => (elem(0),elem(1))) scala> val sortRDD = keyValueRDD.sortByKey(true,1) res29: Array[(String, String)] = Array((2000,30), (2000,10), (2001,9), (2008,20), (2008,40))

私は出力が昇順に年によってソートすることにしたいです毎年値を降順にソートする

出力予想210

：

誰かがこのような結果を得ることに私を助けることができますか？

出典

2017-03-10 Surender Raja

年の年と値を保持するクラスを定義する必要があります。このクラスは、compareメソッドをオーバーライドしてOrderedを拡張する必要があります。このクラスのオブジェクトをキー値として使用し、sortBy操作を適用するよりも、

class TwoKeys(var first: Int, var second: Int) extends Ordered[TwoKeys] { 
    def compare(that: TwoKeys): Int = { 
     if(first == that.first){ 
     that.second - second 
     }else{ 
     first - that.first 
     } 
    } 
    } 
... 
val keyValueRDD = mapRDD.map(elem => (TwoKeys(elem(0), elem(1)), TwoKeys(elem(0), elem(1)))) 
val sortRDD = keyValueRDD.sortByKey(true,1)

出典

2017-03-10 10:22:23 Hlib

はい、動作しますが、私は比較方法に関する説明を理解したいと思いますか？それは何秒ですか？私たちは減算していますか？比較メソッド –

の中に書いたロジックを説明してください。うまくいく場合は、私の答えを正しいものとしてマークしてください。 – Hlib

compareは-1,0または1を返します。これは、より小さく、等しい、より大きくそれぞれに対応します。 – Hlib

Spark-Coreで2つの異なるフィールドでソートを行うにはどうすればよいですか？

答えて

関連する問題