1
RDDからブルームフィルタのセットを作成します。私は次のように見えるやり方:rdd
はRDD[(Int, Long)]
Spark aggregateByKey:キーを使用
のようなものである場合には
rdd.aggregateByKey(create(size))(add, combine).collect()
問題は値が各グループ内に均一に分布されていないということです。つまり、「1つのsize
はすべてフィットします」はここでは機能しません。いくつの要素があるかによって、それぞれのキーごとにブルームフィルタを別々に初期化したいと考えています。
だから私は
count
がカウントしたマップである
rdd.aggregateByKey(key => create(count(key))(add, combine).collect()
ような何かをしたいです。
これは私がgroupByKey
とすることができるものですが、他の方法はありますか?
ありがとう、これは私のケースでは完全に機能します –