2017-10-04 9 views
0

mutateを使って正規分布乱数を列として生成したい。私はrunif()を使ってみましたが、大規模なデータにはエラーが発生します。doplyr mutate support runif

extract_grp <- extract_grp %>% 
mutate(rand = runif(sdf_nrow(extract_grp))) 
glimpse(extract_grp) 

取得していますエラーは次のとおりです。

Error: org.apache.spark.sql.AnalysisException: Undefined function: 'RUNIF'. This function is neither a registered temporary function nor a permanent function registered in the database 'temp_data'.; line 1 pos 101 at org.apache.spark.sql.catalyst.catalog.SessionCatalog.failFunctionLookup(SessionCatalog.scala:999) at org.apache.spark.sql.hive.HiveSessionCatalog.lookupFunction0(HiveSessionCatalog.scala:202) at org.apache.spark.sql.hive.HiveSessionCatalog.lookupFunction(HiveSessionCatalog.scala:174) at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions$$anonfun$apply$13$$anonfun$applyOrElse$6$$anonfun$applyOrElse$39.apply(Analyzer.scala:897)

+2

あなたの質問に[最小限再現可能な例](https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)を含めると、回答が得られる可能性が高くなります。 – jsb

+0

レスポンスのjsbに感謝します。しかし、dplyrとsparkデータフレームで動作するかどうかは疑問です。以上、正規分布乱数を生成したい。私にとって役立つコンテンツが見つからなかったか、あなたが何を言おうとしているかを完全に理解していなかった。私に訂正が必要かどうかを説明してください。 –

+0

あなたの質問が2つの異なる質問で構成されている場合は、それらを分けて、1つの入れ子になった質問の代わりに2つの質問をしてください。 – jsb

答えて

0

ランドは、()の程度まで私の問題を解決しました。

extract_grp <- extract_grp %>% 
    mutate(rand = rand()) 
    glimpse(extract_grp) 

ハイブテーブルのランダムシーケンスを生成することができます。しかし、詰まっているのは、播種を使うことです。 set.seed()はローカルRでは動作しますが、sparklyrでは実行されます。