私は4列を含むデータフレームを持っています。カスタマイズされたユーザー定義集約個別関数の作成方法
データフレームのサンプル行のデータの2種類があり
id1 id2 id3 id4
---------------
a1 a2 a3 a4
b1 b2 b3 b4
b1 b2 b3 b4
c1 c2 c3 c4
b2
c1
a3
a4
c1
d4
いずれかのすべての列は、データ又は1つの列のみを有します。
行間の値を比較しながら、すべての列に対して別個の機能を実行したい場合は、行内に存在する値だけを比較し、NULL値は考慮しません。
出力データフレームは、私がスパークにUDAFの複数の例を見てきました
id1 id2 id3 id4
a1 a2 a3 a4
b1 b2 b3 b4
c1 c2 c3 c4
d4
でなければなりません。しかし、変更することはできません。
は、なぜあなたはすべての4つの列のフィルタ方式を使用していませんか? –
フィルターはどのように役立ちますか? – Kaushal
下記の私の答えをご覧ください –