spark scalaのハイブテーブルを降順でソート

アカウント番号と最新の更新日を持つハイブテーブルがあります。すべてのアカウントが毎日更新されるわけではないので、特定の日からすべてのレコードを単純に選択することはできません。アカウント番号でグループ化し、降順でソートして、各アカウントの最新の2日間を取る必要があります。これまでの私のスクリプト：spark scalaのハイブテーブルを降順でソート

sc.setLogLevel("ERROR") 
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) 
import org.apache.spark.sql.functions._ 
import sqlContext.implicits._ 
val df1 = sqlContext.sql("FROM mydb.mytable SELECT account_num, last_updated") 
val DFGrouped = df1.groupBy("account_num").orderBy(desc("data_dt"))

私は取得していますエラーORDERBY上：

value orderBy is not a member of org.apache.spark.sql.GroupedData

私はここでやっすべきか上の任意のアイデア？

出典

2016-07-26 knobby

サブグループ内でもしそうなら、あなたは次のようなものを試すかもしれません： 'groupBy（...）。map（_。orderBy（...））' – jwvh

@jwh動作しません。 'groupBy'は単なる論理演算です。 – zero323

これはtop N by groupの問題のため、ここではグループ化は機能しません。

あなたはランクの行を選択することで、その後、日付の降順でアカウントIDと順序によって、パーティションで、特に、ランクを（）Spark SQL window functionsを使用する必要が< = 2.要素を注文したいように見えます

出典

2016-07-26 23:21:33 Sim

spark scalaのハイブテーブルを降順でソート

答えて

関連する問題