Tuple2をApacheのspark UDF（java形式）から返すことはできますか？

String型とmllib.linalg.Vector型の2つのDataframe列に対応する2つの引数を入力として取り、Tuple2を返すUDF2が必要です。これは実践ですか？はいの場合、このudf（）をどのように登録すればよいですか？Tuple2をApacheのspark UDF（java形式）から返すことはできますか？

hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?);

UDFは次のように定義されています

UDF2<String, org.apache.spark.mllib.linalg.Vector, Tuple2<String, org.apache.spark.mllib.linalg.Vector>> get_item_data = 
      (String id, org.apache.spark.mllib.linalg.Vector features) -> { 
     return new Tuple2<>(id, features); 
    };

出典

2017-01-09 Kai

次のように定義することができますschemaをそこに行く：

import org.apache.spark.sql.types.DataType; 
import org.apache.spark.sql.types.DataTypes; 
import org.apache.spark.mllib.linalg.VectorUDT; 

List<StructField> fields = new ArrayList<>(); 
fields.add(DataTypes.createStructField("id", DataTypes.StringType, false)); 
fields.add(DataTypes.createStructField("features", new VectorUDT(), false)); 
DataType schema = DataTypes.createStructType(fields);

しかし、あなたが必要とするすべてはどんなことなく、ただstructある場合追加の処理org.apache.spark.sql.functions.structは、このトリックを行う必要があります。

df.select(struct(col("id"), col("features"));

出典

2017-01-09 21:37:58 user6910411

Tuple2をApacheのspark UDF（java形式）から返すことはできますか？

答えて

関連する問題