0
私は2つのデータフレームを持っているとしましょう。Spark SQL - 集計コレクション?
DF1は、さまざまな行の列Aに値{3、4、5}を持つことができます。
DF2は、さまざまな行の列Aに値{4,5,6}を持つことがあります。
distinct_set(A)を使用して、これらのすべての行が同じグループに属すると仮定して、これらを一連の別個の要素に集約できます。
この時点で、結果のデータフレームにセットがあります。そのセットを別のセットに集約する方法はありますか?基本的に、最初の集計の結果として2つのデータフレームがある場合、その結果を集計できるようにしたいと考えています。
入力と予想出力の例を提供する必要があります。これはexplodeを使って別のcollect_setを使うか、UDAFを使って行うことができるようです –