Spark SQLでグループ化、並べ替え

sparkアプリケーションを使用してs3データにアクセスしようとしています。 Spark SQLを適用してデータを取得しています。それはグループバイカットをしていません。Spark SQLでグループ化、並べ替え

DataFrame summaryQuery=sql.sql("Select score from summary order by updationDate desc); 
summaryQuery.groupBy("sessionId").count().show(); 
summaryQuery.show();

また、私は直接

DataFrame summaryQuery=sql.sql("Select score from summary group by sessionId order by updationDate desc); 
summaryquery.show();

それをしようとしています。しかし、両方のケースでは、私はSQL例外を取得しています。

Exception in thread "main" org.apache.spark.sql.AnalysisException: expression 'score' is neither present in the group by, nor is it an aggregate function. Add to group by or wrap in first() (or first_value) if you don't care which value you get.;

データのクエリ方法を指定してください。

出典

2016-10-20 Hitesh Goyal

何を達成しようとしていますか？選択したクエリにグループごとの列が表示され、集計関数を適用する必要があります。サンプルの入力と出力のデータセットを投稿してください。結果を得るためにお手伝いします。 –

Spark SQLでは、column_nameがgroup by句に存在しない場合は、最初の（column_name）またはlast（column_name）関数または任意の集計関数でラップする必要があります。フェッチされた行からそれぞれ最初または最後の値が取られます。

DataFrame summaryQuery=sql.sql("Select first(score) from summary group by sessionId order by updationDate desc); 
summaryquery.show();

出典

2017-11-11 18:15:31

Spark SQLでグループ化、並べ替え

答えて

関連する問題