列スパークMLlibに変換は

私は、変換機能のためにSpark MLlib doc読みましたが、私はまだ2つの簡単な例について混乱しています：列スパークMLlibに変換は

1.Howは、柔軟な単一の列に対処するには？たとえば、「date」という名前の列が1つあります。「YYYY-MM-DD」形式です。「date」に基づいて「week」という新しい列を1つ生成します。 pandas.Dataframeを使用する場合は、Series.applyを使って行うことができます。私の質問は、Spark MLlibでそれを行う方法です。

2.How多列に基づいて新しい列を生成するには？例えば、私はそれがpandas.DataFrameに簡単です、支出と収入に基づいてROIを計算したい：Spark.MLlibについては

df['roi'] = (df['income'] - df['spend'])/df['spend']

、私はSQLTransformerが同じ仕事のために使用することができる見つけることが、私はわかりません

どんな男はSpark.MLlibにそれに対処する方法を教えてもらえますか？ありがとうございます

出典

2016-09-20 linpingta

クリーンなオプションは、独自の関数を定義し、withColumn()を使用してDataFrameに適用することです。これは機械学習モジュールSparkを指すので、MLlibとは関係がないことに注意してください。

from pyspark.sql.types import FloatType 
from pyspark.sql.functions import udf 

def roiCalc(income, spend): # Define function 
    return((income - spend)/spend) 

roiCalculator = udf(roiCalc, FloatType()) # Convert to udf 
df.withColumn("roi", roiCalculator(df["income"],df["spend"])) # Apply to df

出典

2016-09-20 07:36:58 mtoto

おかげで多くは、それは私が前に混乱していたものです – linpingta

列スパークMLlibに変換は

答えて

関連する問題