1
私は(key, python_obj)
(自体はそれほど小さなPythonクラスではありません)の大きなリストを得るためにaggregateByKey
を使用するPysparkにアルゴリズムを書いています。SparkアキュムレータがaggregateByKeyよりも高速である可能性がありますか?
理論的には、巨大な辞書を作ってアキュムレータでも同じことを実現できますか?
努力する価値があるのですか、それともアキュムレータが異なるユースケースを意味していますか?