sparklyr

    5

    2答えて

    約2250万回の観測データセットのローリングバリューアットリスクを推定したいので、高速計算にsparklyrを使用したいと考えています。ここでは(サンプル・データベースを使用して)私がやったことです: library(PerformanceAnalytics) library(reshape2) library(dplyr) data(managers) data <- zerofill

    0

    2答えて

    私はSparklyRの簡単なガイドに従おうとしていますが、最初からエラーが表示されます。ガイドに書かれたように私はSparklyRとスパークのローカルバージョンをインストールします。 library("sparklyr") spark_install(version="1.6.2") エラーが発生する私は、接続を開き、ここにある: sc <- spark_connect(master="local

    0

    1答えて

    私はRStudioを使用しています。スパークのローカルバージョンをインストールし、いくつかのことを実行して、かなり満足しています。今は、RStudio ServerとスタンドアロンバージョンのSparkを使って、実際のデータをクラスタから読み込もうとしています。データはCassandraにあり、接続方法はわかりません。誰かがそのデータを接続して読み込む方法について私に良いプライマを教えてもらえます

    3

    1答えて

    私はsparklyr(sparkとpysparkに精通しています)には新しく、本当に基本的な質問があります。部分一致に基づいて列をフィルタリングしようとしています。 dplyrでは、私はそうと、私の操作を記述します Error: org.apache.spark.sql.AnalysisException: Undefined function: 'GREPL'. This function is

    0

    1答えて

    コンテキスト:ログオン時に大きなテーブルがあります。私は指定された期間(例えば3600秒)内のログオンのローリングカウントを計算したいと思います。 SQL/HQLで 私はこれを指定します:私があるのか​​どうかを知りたい df %>% mutate(window_count = sql('COUNT(*) OVER( PARTITION BY id ORDER BY logon

    1

    1答えて

    私はsparklyrのspark_applyによって呼び出される関数に余分な変数を渡すことができるようにしたいと思います。 たとえば、次のように醜い回避策として # setup library(sparklyr) sc <- spark_connect(master='local', packages=TRUE) iris2 <- iris[,1:(ncol(iris) - 1)] df1

    1

    1答えて

    48個の異なる列を含むSpark DataFrame、train_tblがあります。 sparklyrパッケージを使用してランダムなフォレストモデルを訓練し、responseという変数とfeaturesという他のすべての列として48列のうちの1つを使用します。 473のフィールド名をすべて入力せずに、loan_status以外のすべてのフィールドをフィーチャーとして使用するように指定する方法はあり

    0

    1答えて

    私は、日付の列を持つ色相にテーブルを持ってきました。私はRstudioのsparklyrを使ってそれを使って遊んでいます。 私はそうのような日付列に文字列を変換したい: Weather_data = mutate(Weather_data, date2 = as.Date(date, "%m/%d/%Y")) 、私がチェックしたときに、これは罰金実行されますが: head(Weather_da

    0

    1答えて

    mutateを使って正規分布乱数を列として生成したい。私はrunif()を使ってみましたが、大規模なデータにはエラーが発生します。 extract_grp <- extract_grp %>% mutate(rand = runif(sdf_nrow(extract_grp))) glimpse(extract_grp) 取得していますエラーは次のとおりです。 Error: org.apa

    1

    1答えて

    Sparklyrは文句: test <- copy_to(sc, tibble(column = c(1,2,3,4))) group1_cols <- c(1,2) group2_cols <- c(3,4) test %>% mutate(group = case_when( column %in% group1_cols ~ 'group 1',