私は特定のscala-spark構文に固執しています。正しい方向に私を導くことができれば嬉しいです。RDD1の特定の要素を選択する
RDD1タイプの配列[((フロート、フロート、フロート)、ロング)]、
RDD1.collect =配列の場合((X1、Y1、Z1)が、1)、((X2、Y2、 Z2)、2)、((X3、Y3、Y3)、3)、...)
とRDD2タイプ、配列[ロング]のインデックスであり、
RDD2.collect =アレイ(1 、3、5 ...)
RDD2にインデックスがあるRDD1から値を抽出する最良の方法はありますか。 (x3、y3、y3)、3)、(x5、y5、y5)、...) 出力、配列((x1、y1、z1)、1)、(x3、y3、y3)、...)
両方RDD1とRDD2は十分に大きく、私は.collectの使用を避けたいと考えています。さもなければ、問題は単に2つのスカラー配列/リストに交差する要素を見つけることです。
ご協力いただきありがとうございます。