予測のために後で使用するIDとベクトルを使用してDataFrameを準備しています。私は自分のデータフレームにGROUPBYを行い、そして私のGROUPBYに私は新しい列にリストとして列のカップルをマージしています:これは私が私の特徴ベクトルとそのラベルを作成しています方法ですudf関数で十分な入力変数が受け入れられない場合のデータフレームの書き換え
def mergeFunction(...) // with 14 input variables
val myudffunction(mergeFunction) // Spark doesn't support this
df.groupBy("id").agg(
collect_list(df(...)) as ...
... // too many of these (something like 14 of them)
).withColumn("features_labels",
myudffunction(
col(...)
, col(...))
.select("id", "feature_labels")
。これまでのところ私のために働いていますが、これは初めて、このメソッドの特徴ベクトルがSparkのudf関数が受け入れる最大値である10より大きくなっています。
私はこれをどのように修正できるかわかりません。 のudf入力のサイズは大きくなりますが、私は間違って理解していますか? 良い方法がありますか?
ありがとうございました。この問題を処理するうまい方法。 –