2016-03-21 8 views
1

ScalaとSparkの新機能です。私は、編集距離を計算することによって、データフレームの既存の列から新しい列を派生させたいと考えています。例えば、FNAMEとLNAMEはデータフレームの2つのカラムであり、FNAMEとLNAMEの編集距離を維持するNAMESCOREという新しいカラムを追加したかったのです。作業または擬似コードで助言してください。編集距離データフレーム列(String)を派生させてsparkのデータフレームに新しい列を追加する方法

ここに私はいくつかの部分的な答えがあります。

Derive multiple columns from a single column in a Spark DataFrame

答えて

0

あなたはUDFを使用することができます。

def udfToFindEditDistance(col1 :String,col2 :String): String ={ 
    //find edit distance b/w col1 and col2 
    } 

val newUDF=udf(udfToFindEditDistance(_:String,_:String)) 

あなたはレーベンシュタインFを使用することができます

val newDf=df.withColumn("newColumnName",newUDF(df("FNAME"),df("LNAME"))) 
関連する問題