私は約12000行の大きなデータセットを持っています。データは変位値とタイムスタンプで構成されます。 10行ごとに、平均、標準偏差の分散などを計算したい。Spark Scalaを使用してビン平均を計算するには?
このためにウィンドウ関数機能を使用できますか?あるいは誰かがより簡単な方法を提案することができますか?
P.S:Sparkとscalaの新機能です。前もって感謝します。
私は約12000行の大きなデータセットを持っています。データは変位値とタイムスタンプで構成されます。 10行ごとに、平均、標準偏差の分散などを計算したい。Spark Scalaを使用してビン平均を計算するには?
このためにウィンドウ関数機能を使用できますか?あるいは誰かがより簡単な方法を提案することができますか?
P.S:Sparkとscalaの新機能です。前もって感謝します。
はいlag
、lead
でrolling windows
を使用し、ここではあなたのユースケースに応じて使用可能rowsBetween
などたくさんのオプションがいくつかのリンクです:windows explainedmore windows info
あなたは自分自身で何を思いついたのですか?どのようにビンを計算しますか? 'reduceByKey'オペレーションを実行することができます。ここで、キーは適切なビンです。 –
Binsizeはあらかじめ定義されていません。これは、ユーザーからの入力パラメーターです。私はreduceByKeyが問題を解決できるとは思わない。 – Hancel