0
私が扱う2つのキーと値のペアRDDのAとBがあります。のは、Bは10000行を持っており、私はその値によってBをソートしているとしましょう:ソートされたRDDを上位N行をフィルタリングする方法
B = B0.map(_.swap).sortByKey().map(_.swap)
私は私が行うことができます知っているBからトップ5000を取り、Aと結合するためにそれを使用する必要があります。
B1 = B.take(5000)
または
B1 = B.zipWithIndex().filter(_._2 < 5000).map(_._1)
両方の計算をトリガするようです。 B1は中間結果に過ぎないので、実際の計算を引き起こさないようにしたいと思います。それを達成するより良い方法はありますか?