sparkr

    0

    1答えて

    私は私のデータフレーム上のいくつかの記述統計を取得したい: # Initialize SparkR Contexts library(SparkR) # Load library sc <- sparkR.init(master="local[4]") # Initialize Spark Context sqlContext <- sparkRS

    -1

    2答えて

    私はSpark 2.0をインストールし、sparkRコマンドを試しました。しかし、以下のようなエラーメッセージが表示されます。他のものはOKです(スパークシェル、ピンパーク、,,)。助けてください... [エラーメッセージ] Dongkils-のMacBook:スパーク-2.0.0-binの-hadoop2.7 dongkillee $ sparkR ENV:R:そのようなファイルやディレクトリ

    0

    1答えて

    TRUEではありません。 >SparkR::agg(SparkR::groupBy(df, "column_1")) は、なぜ私は次のエラーを取得するか: Error: length(cols) > 0 is not TRUE

    1

    1答えて

    こんにちは私はpysparkからsparkRへコードを移行しようとしています。いくつかの列を修正するために、私はpysparkで 'WithColumn'を使用しました。ただし、sparkRでは新しい列が生成されます。私はその後も良いです df$a <- f(df$a) のようなものを試してみました。しかし、私はそれを関数やループの中で使い、いくつかの変数に対して繰り返したいとします。この場合

    2

    1答えて

    SparkR演算で最適化メソッドを指定する方法について誰でも説明できますか?glm? glmとOLSモデルを適合させようとすると、ソルバータイプとして"normal"または"auto"しか指定できません。 SparkRは私が"auto"を指定したとき、SparkRは単に「"normalを前提としていることを信じるように私をリードし、ソルバー仕様"l-bfgs"を解釈することができませんし、その後正

    0

    1答えて

    R StudioサーバーでSparkRを使用しています。 sqlContextを作成した後、sparkRでいくつかのテーブルを処理し、R関数を使用して回帰モデルを開発するためにR data.frameに変換したい最終的なテーブル2.2百万レコードを残しました。しかし、 "as.data.frame(finaltable)"のコードは、メモリの問題のために2時間後に実行されることはありません。私は同

    1

    2答えて

    Rからは、factors()という関数があります。この関数を並列化してSpark Rで使用したいと思います。 Sparkのバージョンは1.6.2で、documentationの同等のものは見つかりません。私はマップでそれを行うことができると思ったが、私はthis answerを理解しているとは確信していないし、より簡単な方法があるはずである。 したがって、簡単に言えば、factors()はSpar

    1

    1答えて

    データフレームdfには何百万行もあります。私はddplyとユーザ定義関数udfを使用しています。 res <- ddply(df, c("id"),function(x){udf(x)} これはかなりうまく動作しますが、それは理由udfの私は推測する(それは約4時間かかります)非常に遅いです。多くのケースをチェックします。 私はsparkRで同じ機能を実行したいと思います。 SparkはR環境