0
DataFrame
のフィーチャの独自のトランスを作成したいので、たとえば2つの他のカラムの違いなどのカラムを追加します。私はthis questionを追跡しましたが、変圧器は1列だけで動作します。 pyspark.ml.Transformer
は、inputCol
の引数として文字列を受け取ります。もちろん、複数の列を指定することはできません。pyspark.mlの複数の機能で動作するトランスフォーマー
だから、基本的に、私は何を達成したいことは、このいずれかのような_transform()
方法であって、これを行うことが可能である方法
def _transform(self, dataset):
out_col = self.getOutputCol()
in_col = dataset.select([self.getInputCol()])
# Define transformer logic
def f(col1, col2):
return col1 - col2
t = IntegerType()
return dataset.withColumn(out_col, udf(f, t)(in_col))
?
「HasInputCols」(複数形)はあなたが探しているものでしょうか? –