現在の行の値を次の値に分割する方法は？

DataFrameを使用するSpark-SQLバージョン1.6では、特定の列に対して、現在の行と次の行を分ける割合をすべての行について計算する方法がありますか？例えば現在の行の値を次の値に分割する方法は？

、私は

私はそれは、「次を持っていないので、最後の行がドロップされ、次の出力

Franction 
2 
2.5 
5

したいような、一つの列を持つテーブルを持っている場合行 "に追加されます。

今私はテーブルのランキングを決めてそれ自身と結合しています。ここではrankはrank+1です。

これを行うより良い方法はありますか？ Window機能でこれを行うことはできますか？

出典

2017-06-06 summerbulb

はい。それはウィンドウ集合関数の "仕事"です。 '/'を使いましたか？ –

@JacekLaskowski、 '/'または 'functions'に似たものは見つかりませんでした。 – summerbulb

Window関数は部分的なトリックだけを行う必要があります。他の部分的なトリックはudf機能

def div = udf((age: Double, lag: Double) => lag/age)

ファーストを定義することによって行うことができ、我々はlagはWindow機能を使用して検索し、div 輸入sqlContext.implicits._ を見つけるために、udf機能でそのlagとageを渡す必要があります輸入org.apache.spark.sql.functions._

val dataframe = Seq(
    ("A",100), 
    ("A",50), 
    ("A",20), 
    ("A",4) 
).toDF("person", "Age") 

val windowSpec = Window.partitionBy("person").orderBy(col("Age").desc) 
val newDF = dataframe.withColumn("lag", lag(dataframe("Age"), 1) over(windowSpec))

そして最後には、UDFの機能をCAL

newDF.filter(newDF("lag").isNotNull).withColumn("div", div(newDF("Age"), newDF("lag"))).drop("Age", "lag").show

最終的な出力は次のようになり

+------+---+ 
|person|div| 
+------+---+ 
|  A|2.0| 
|  A|2.5| 
|  A|5.0| 
+------+---+

@Jacekとして ではなく.filter(newDF("lag").isNotNull)の.na.dropを使用して/演算子を使用するために、よりよい解決策を提案しているので、私たちも、呼び出す必要はありません編集udf機能

newDF.na.drop.withColumn("div", newDF("lag")/newDF("Age")).drop("Age", "lag").show

出典

2017-06-06 15:12:34

ありがとうございます。あなたの答えを踏まえて、私は次のように構成しました。（dataframe.select（$ "person"、$ "Age" /（lead） "age"、1）を "div"としました。 drop.show' – summerbulb

現在の行の値を次の値に分割する方法は？

答えて

関連する問題