groupByKeyを別のものに置き換える最も良い方法を知りたいと思います。apacheでgroupByKeyを置き換える方法Spark
基本的に私はRDD [(int型、リスト[対策])を取得したいと思い、私の状況:
// consider measures like RDD of objects
measures.keyBy(_.getId)
.groupByKey
私の考えでは、それはあまりシャッフル原因bacause、代わりにreduceByKeyを使用することです:
measures.keyBy(_.getId)
.mapValues(List(_))
.reduceByKey(_++_)
しかし、私は非常に非効率的であるため、たくさんの不要なリストオブジェクトをインスタンス化する必要があります。
他に誰かがgroupByKeyを置き換えることができますか?
実際に使用する場合に非効率的であるかどうか試してみましたか?これは、自分の考えていることがあなたのデータに当てはまるかどうかを確認する唯一の方法です。 – sgvd
それ以外に、groupByKeyを置き換える他の方法はありますか? – Giorgio