調査を行っているとき、Spark RDDのすべてのサブセットを削除するのはやや難しいことがわかります。spark RDDのサブセットを効率的に削除する方法
データ構造はRDD[(key,set)]
です。例えば、それができる:
RDD[ ("peter",Set(1,2,3)), ("mike",Set(1,3)), ("jack",Set(5)) ]
マイク(Set(1,3))
のセットはピーターの(Set(1,2,3))
のサブセットであるので、私は
RDD[ ("peter",Set(1,2,3)), ("jack",Set(5)) ]
2つの "for"ループ操作で、Pythonでローカルに実装するのは簡単です。しかし、私がscalaとsparkでクラウドに拡張したい場合、良い解決策を見つけるのは簡単ではありません。
ありがとうございました
:
がスパークAPIを使用してこれを行うために、我々は、デカルト積を使用して自身でデータを乗算し、結果の行列の各エントリを検証するに頼ることができますか? '(" peter "、Set(1,2,3))'& '(" olga "、Set(1,2,3))' – maasgただ一つ削除してください。どちらが重要かは分かりません。 –
提供されたソリューションは、両方を保持します。あなたはあなたの特定のニーズにそれを適応させるために招待されています。 – maasg