sparklyr

    0

    1答えて

    sparklyappパッケージからspark_applyを実行して、スパーククラスタでホストされている多数のデータに対してkmeansクラスタリングを実行しようとしています。しかし、私は理解が難しいスパークエラーを受けています。データは、features列が緯度と経度の列を結合した集合ベクトルであるが、この場合は使用されない次のようなものである。次のように > samplog1 # Source

    0

    2答えて

    こんにちは私は、次のスパークのデータフレームを持っています。私は行全体を合計したい。私はsparklyrの行合計と同等の関数を見つけることができませんでした。私は次のクエリを試みたが、列の値を合計します。 trans1M_20 %>% dplyr::select(trans1M_20_clicks) %>% dplyr::select(Small_SubChannel_Cl

    4

    1答えて

    分散ファイルシステムの多くの.csvファイルに1億の行が格納されています。私は問題なくデータを読み込むためにspark_read_csv()を使用しています。私の列の多くは、文字論理値として格納されます:"true"、"false"、"<na>"。私はこれを支配していない。 論理値に変換しようとすると、"<na>"の値はの値を持つFALSEに変換されます。どのようにこれを克服するための任意の考え?

    0

    1答えて

    こんにちは、sparkRデータフレームに直接DBテーブルを読み込む方法があるかどうかを調べようとしています。私はそれに私のハイブのmetastoreを持っているEMRクラスタにインストールされているrstudioを持っています。 私は、次の操作を行うことができます知っている: library(sparklyr) library(dplyr) sc <- spark_connect(master

    1

    1答えて

    はsdf_pivotを使用した後、私の分析を進めるために、私は0ではNaNを交換する必要があるので、私は、NaN値の膨大な数に残っていた、私はこの使用して試してみました: data <- data %>% spark_apply(function(e) ifelse(is.nan(e),0,e)) をそして、これはgereratesエラー以下: Error in file(con,

    2

    1答えて

    私はsparkで新しい仕事をしています。スパークデータフレームの多数の列にベクトルの値を掛けたいと思います。これまでmtcarsを使って私はforループとmutate_atを以下のように使っていました: library(dplyr) library(rlang) library(sparklyr) sc1 <- spark_connect(master = "local") mtcar

    2

    1答えて

    私はsparklyrのクラスタリング問題を解決しようとしています。トレーニングセットの変数の多くは、異なるスケールで測定され、したがって、桁違いに異なる。ベストプラクティスでは、私はデータをスケールして中心化しようとしています。 Xをランダム変数、μ=平均、σ=標準偏差とする最も伝統的な式(X - μ)/σがあります。私はX =確率変数、x =標本平均、x_max =最大値、x_min =最小値で

    2

    1答えて

    sd()をスパークデータフレーム内の単一の値に(Rのスパークルパッケージを介して)適用すると、それに基づいてフィルタリングできない欠損値欠損値。 誰かがこれを説明して良い解決策を提供できますか? 以下の例。 library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") #> * Using Spark: 2.1

    3

    1答えて

    私はsparklyrでナイーブベイズモデルの実行は、次のようml_naive_bayesを使用して持っている:私はモデルを印刷する場合 library(sparklyr) library(dplyr) sc <- spark_connect(master = 'local') d <- structure(list(response = c(0L, 0L, 1L, 1L, 1L, 1L,

    1

    1答えて

    おはよう、 愚かな質問のように聞こえるかもしれませんが、RStudioのSparkで一時テーブルにアクセスしたいと思います。私はSparkクラスタを持っていません。私は自分のPC上のすべてのローカルを実行します。 私はIntelliJの通過スパークを起動すると、インスタンスが正常に実行されている: 17/11/11 10:11:33 INFO Utils: Successfully started