強く型付けされたSparkデータセットでは、どのようにWindow Aggrgateを使用しますか？

をSpark 2.xから新しい（厳密にタイプされた）に適応しようとしていますが、Windowの機能を使用するときはタイプ情報を維持するのに苦労しています。（それは私のDataset[(Measurement,Column)]を与えるよう）強く型付けされたSparkデータセットでは、どのようにWindow Aggrgateを使用しますか？

case class Measurement(nb:Long,x:Double)

dsDataset[Measurement]され、私を与える代わりにDataset[(Measurement,Double)]

がwithColumnを使用して、私は

ds.map{m => (m,sum($"x").over(Window.orderBy($"nb"))}

ような何かをしたいと思います。しかし、これは動作しません。 a Dataset[Row]、タイプ情報が失われています：

ds.withColumn("cumsum",sum($"x").over(Window.orderBy($"nb")))

したがって、強く型付けされたDatasetsにWindow関数を使用するより良い方法はありますか？

'ds.withColumn（ "CUMSUM"、SUM（$ "X"）で見つけることができますここで見つけることができます。オーバー（ Window.orderBy（$ "nb"））） 'あなたは' Dataset（（Measurement、Double） '行を賢明に持っているはずです。 –

を役に立てば幸いあなたのデータセットには、選択肢はありませんが、dataframe.as[New Type]メソッドを使用すると思います。

詳しい情報は、このブログの記事Window Functions in Spark SQL by Databricks

2017-06-08 10:01:09

あなたは特別なケースではDataset[U]

にDataframe（またはDataset[Row]）に変換するas[U]メソッドを使用することができます。

ds.withColumn("cumsum",sum($"x").over(Window.orderBy($"nb"))).as[(Measurement,Column)]

は、それはあなたが新しい列を追加したよう

2017-06-08 08:54:30

答えて