sparklyr

5熱

2答えて

約2250万回の観測データセットのローリングバリューアットリスクを推定したいので、高速計算にsparklyrを使用したいと考えています。ここでは（サンプル・データベースを使用して）私がやったことです： library(PerformanceAnalytics) library(reshape2) library(dplyr) data(managers) data <- zerofill

0熱

2答えて

initialize_connectエラーでsparklyrをインストールする

私はSparklyRの簡単なガイドに従おうとしていますが、最初からエラーが表示されます。ガイドに書かれたように私はSparklyRとスパークのローカルバージョンをインストールします。 library("sparklyr") spark_install(version="1.6.2") エラーが発生する私は、接続を開き、ここにある： sc <- spark_connect(master="local

0熱

1答えて

Sparklyrを使用してCassandraデータに接続する

私はRStudioを使用しています。スパークのローカルバージョンをインストールし、いくつかのことを実行して、かなり満足しています。今は、RStudio ServerとスタンドアロンバージョンのSparkを使って、実際のデータをクラスタから読み込もうとしています。データはCassandraにあり、接続方法はわかりません。誰かがそのデータを接続して読み込む方法について私に良いプライマを教えてもらえます

3熱

1答えて

sparklyrを使って部分一致をフィルタリングする方法

私はsparklyr（sparkとpysparkに精通しています）には新しく、本当に基本的な質問があります。部分一致に基づいて列をフィルタリングしようとしています。 dplyrでは、私はそうと、私の操作を記述します Error: org.apache.spark.sql.AnalysisException: Undefined function: 'GREPL'. This function is

0熱

1答えて

sparklyrでのウィンドウ操作にspark-sqlの "range between"句を使用する方法

コンテキスト：ログオン時に大きなテーブルがあります。私は指定された期間（例えば3600秒）内のログオンのローリングカウントを計算したいと思います。 SQL/HQLで私はこれを指定します：私があるのかどうかを知りたい df %>% mutate(window_count = sql('COUNT(*) OVER( PARTITION BY id ORDER BY logon

1熱

1答えて

spark_apply（）で呼び出された関数に変数を渡す方法は？

私はsparklyrのspark_applyによって呼び出される関数に余分な変数を渡すことができるようにしたいと思います。たとえば、次のように醜い回避策として # setup library(sparklyr) sc <- spark_connect(master='local', packages=TRUE) iris2 <- iris[,1:(ncol(iris) - 1)] df1

1熱

1答えて

sparklyr：トレーニングモデルのレスポンス以外のすべての列を選択します。

48個の異なる列を含むSpark DataFrame、train_tblがあります。 sparklyrパッケージを使用してランダムなフォレストモデルを訓練し、responseという変数とfeaturesという他のすべての列として48列のうちの1つを使用します。 473のフィールド名をすべて入力せずに、loan_status以外のすべてのフィールドをフィーチャーとして使用するように指定する方法はあり

0熱

1答えて

sparklyrを使って文字列/ chrを日付に変換する

私は、日付の列を持つ色相にテーブルを持ってきました。私はRstudioのsparklyrを使ってそれを使って遊んでいます。私はそうのような日付列に文字列を変換したい： Weather_data = mutate(Weather_data, date2 = as.Date(date, "%m/%d/%Y")) 、私がチェックしたときに、これは罰金実行されますが： head(Weather_da

0熱

1答えて

doplyr mutate support runif

mutateを使って正規分布乱数を列として生成したい。私はrunif()を使ってみましたが、大規模なデータにはエラーが発生します。 extract_grp <- extract_grp %>% mutate(rand = runif(sdf_nrow(extract_grp))) glimpse(extract_grp) 取得していますエラーは次のとおりです。 Error: org.apa

1熱

1答えて

Sparklyr使用case_whenは

Sparklyrは文句： test <- copy_to(sc, tibble(column = c(1,2,3,4))) group1_cols <- c(1,2) group2_cols <- c(3,4) test %>% mutate(group = case_when( column %in% group1_cols ~ 'group 1',