0
String型とmllib.linalg.Vector型の2つのDataframe列に対応する2つの引数を入力として取り、Tuple2を返すUDF2が必要です。これは実践ですか?はいの場合、このudf()をどのように登録すればよいですか?Tuple2をApacheのspark UDF(java形式)から返すことはできますか?
hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?);
UDFは次のように定義されています
UDF2<String, org.apache.spark.mllib.linalg.Vector, Tuple2<String, org.apache.spark.mllib.linalg.Vector>> get_item_data =
(String id, org.apache.spark.mllib.linalg.Vector features) -> {
return new Tuple2<>(id, features);
};