sparklyr

0熱

1答えて

エラーsparklyr：spark-applyを実行しているときにゲートウェイxxxxxがxxxを呼び出しに失敗しました

sparklyappパッケージからspark_applyを実行して、スパーククラスタでホストされている多数のデータに対してkmeansクラスタリングを実行しようとしています。しかし、私は理解が難しいスパークエラーを受けています。データは、features列が緯度と経度の列を結合した集合ベクトルであるが、この場合は使用されない次のようなものである。次のように > samplog1 # Source

0熱

2答えて

sparklyrのrowSumを計算する

こんにちは私は、次のスパークのデータフレームを持っています。私は行全体を合計したい。私はsparklyrの行合計と同等の関数を見つけることができませんでした。私は次のクエリを試みたが、列の値を合計します。 trans1M_20 %>% dplyr::select(trans1M_20_clicks) %>% dplyr::select(Small_SubChannel_Cl

4熱

1答えて

sparklyrで文字列をRの論理に変換する

分散ファイルシステムの多くの.csvファイルに1億の行が格納されています。私は問題なくデータを読み込むためにspark_read_csv（）を使用しています。私の列の多くは、文字論理値として格納されます："true"、"false"、"<na>"。私はこれを支配していない。論理値に変換しようとすると、"<na>"の値はの値を持つFALSEに変換されます。どのようにこれを克服するための任意の考え？

0熱

1答えて

Sparklyrが分散データベースへのデータベーステーブルを読み取る

こんにちは、sparkRデータフレームに直接DBテーブルを読み込む方法があるかどうかを調べようとしています。私はそれに私のハイブのmetastoreを持っているEMRクラスタにインストールされているrstudioを持っています。私は、次の操作を行うことができます知っている： library(sparklyr) library(dplyr) sc <- spark_connect(master

1熱

1答えて

spark_applyを使用してNaN値を変更するにはどうすればよいですか？

はsdf_pivotを使用した後、私の分析を進めるために、私は0ではNaNを交換する必要があるので、私は、NaN値の膨大な数に残っていた、私はこの使用して試してみました： data <- data %>% spark_apply(function(e) ifelse(is.nan(e),0,e)) をそして、これはgereratesエラー以下： Error in file(con,

2熱

1答えて

ベクトルを使用してDEFFの複数の列をDEFFのDFで変更できますか？

私はsparkで新しい仕事をしています。スパークデータフレームの多数の列にベクトルの値を掛けたいと思います。これまでmtcarsを使って私はforループとmutate_atを以下のように使っていました： library(dplyr) library(rlang) library(sparklyr) sc1 <- spark_connect(master = "local") mtcar

2熱

1答えて

mutate_eachを使用してスパークリヤの変数をスケールおよびセンタリングする

私はsparklyrのクラスタリング問題を解決しようとしています。トレーニングセットの変数の多くは、異なるスケールで測定され、したがって、桁違いに異なる。ベストプラクティスでは、私はデータをスケールして中心化しようとしています。 Xをランダム変数、μ=平均、σ=標準偏差とする最も伝統的な式（X - μ）/σがあります。私はX =確率変数、x =標本平均、x_max =最大値、x_min =最小値で

2熱

1答えて

sparklyrは、単一の値で `sd`の欠損値をフィルタリングできません

sd()をスパークデータフレーム内の単一の値に（Rのスパークルパッケージを介して）適用すると、それに基づいてフィルタリングできない欠損値欠損値。誰かがこれを説明して良い解決策を提供できますか？以下の例。 library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") #> * Using Spark: 2.1

3熱

1答えて

Sparklyrは：ナイーブベイズモデルから条件付き確率を抽出

私はsparklyrでナイーブベイズモデルの実行は、次のようml_naive_bayesを使用して持っている：私はモデルを印刷する場合 library(sparklyr) library(dplyr) sc <- spark_connect(master = 'local') d <- structure(list(response = c(0L, 0L, 1L, 1L, 1L, 1L,

1熱

1答えて

RStudio-sparklyrを使用してIntelliJが提供するローカルSparkに接続する

おはよう、愚かな質問のように聞こえるかもしれませんが、RStudioのSparkで一時テーブルにアクセスしたいと思います。私はSparkクラスタを持っていません。私は自分のPC上のすべてのローカルを実行します。私はIntelliJの通過スパークを起動すると、インスタンスが正常に実行されている： 17/11/11 10:11:33 INFO Utils: Successfully started