docsによれば、collect_set
とcollect_list
の関数はSpark SQLで使用できるはずです。しかし、私はそれを働かせることはできません。私はDocker imageを使ってSpark 1.6.0を動かしています。spark SQLでcollect_listとcollect_setを使用
私はScalaでは、このやろうとしている:
import org.apache.spark.sql.functions._
df.groupBy("column1")
.agg(collect_set("column2"))
.show()
をと、実行時に次のエラーが表示されます。
Exception in thread "main" org.apache.spark.sql.AnalysisException: undefined function collect_set;
もpyspark
を使用して、それを試してみましたが、それも失敗します。これらの機能はハイブUDAFのエイリアスですが、これらの機能を有効にすることはできません。
これを修正するにはどうすればよいですか?ありがとう!
とそれが接続可、 "@since 1.6.0" というSAIS私はまだことを取得していた文書で 1.6.1についてエラー –
ちょっと@ zero323、私はスパーク1.5.0で 'collect_list'関数を使用しようとしています。私はハイブのコンテキストを作成しましたが、関数をインポートする方法を理解することはできません。これはコンパイルされません。.groupBy(providerData( "PRVSEQ")、providerData( "PROV_NUM")) .agg(collect_list(regexp_replace(triggerReport( "match_type")、 "_(Individual | Practice)Model"、 " "))) –
@VijayRatnagiri 1.6で導入されました。私が知っている限り、登録されたテンポラリテーブルの1.5でraw SQLクエリを使用できるはずです。 – zero323