mutateを使って正規分布乱数を列として生成したい。私はrunif()
を使ってみましたが、大規模なデータにはエラーが発生します。doplyr mutate support runif
extract_grp <- extract_grp %>%
mutate(rand = runif(sdf_nrow(extract_grp)))
glimpse(extract_grp)
取得していますエラーは次のとおりです。
Error: org.apache.spark.sql.AnalysisException: Undefined function: 'RUNIF'. This function is neither a registered temporary function nor a permanent function registered in the database 'temp_data'.; line 1 pos 101 at org.apache.spark.sql.catalyst.catalog.SessionCatalog.failFunctionLookup(SessionCatalog.scala:999) at org.apache.spark.sql.hive.HiveSessionCatalog.lookupFunction0(HiveSessionCatalog.scala:202) at org.apache.spark.sql.hive.HiveSessionCatalog.lookupFunction(HiveSessionCatalog.scala:174) at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions$$anonfun$apply$13$$anonfun$applyOrElse$6$$anonfun$applyOrElse$39.apply(Analyzer.scala:897)
あなたの質問に[最小限再現可能な例](https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)を含めると、回答が得られる可能性が高くなります。 – jsb
レスポンスのjsbに感謝します。しかし、dplyrとsparkデータフレームで動作するかどうかは疑問です。以上、正規分布乱数を生成したい。私にとって役立つコンテンツが見つからなかったか、あなたが何を言おうとしているかを完全に理解していなかった。私に訂正が必要かどうかを説明してください。 –
あなたの質問が2つの異なる質問で構成されている場合は、それらを分けて、1つの入れ子になった質問の代わりに2つの質問をしてください。 – jsb