0
アカウント番号と最新の更新日を持つハイブテーブルがあります。すべてのアカウントが毎日更新されるわけではないので、特定の日からすべてのレコードを単純に選択することはできません。アカウント番号でグループ化し、降順でソートして、各アカウントの最新の2日間を取る必要があります。これまでの私のスクリプト:spark scalaのハイブテーブルを降順でソート
sc.setLogLevel("ERROR")
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
import org.apache.spark.sql.functions._
import sqlContext.implicits._
val df1 = sqlContext.sql("FROM mydb.mytable SELECT account_num, last_updated")
val DFGrouped = df1.groupBy("account_num").orderBy(desc("data_dt"))
私は取得していますエラーORDERBY上:
value orderBy is not a member of org.apache.spark.sql.GroupedData
私はここでやっすべきか上の任意のアイデア?
サブグループ内でもしそうなら、あなたは次のようなものを試すかもしれません: 'groupBy(...)。map(_。orderBy(...))' – jwvh
@jwh動作しません。 'groupBy'は単なる論理演算です。 – zero323