sparkr

0熱

1答えて

SparkR - as.doubleでのエラー（X）：タイプのベクトルにタイプ「S4」を強要することはできません「ダブル」

私は私のデータフレーム上のいくつかの記述統計を取得したい： # Initialize SparkR Contexts library(SparkR) # Load library sc <- sparkR.init(master="local[4]") # Initialize Spark Context sqlContext <- sparkRS

-1熱

2答えて

sparkRを起動できません

私はSpark 2.0をインストールし、sparkRコマンドを試しました。しかし、以下のようなエラーメッセージが表示されます。他のものはOKです（スパークシェル、ピンパーク、,,）。助けてください... [エラーメッセージ] Dongkils-のMacBook：スパーク-2.0.0-binの-hadoop2.7 dongkillee $ sparkR ENV：R：そのようなファイルやディレクトリ

0熱

1答えて

エラー：長さ（COLS）> 0は、私がグループに特定の列でデータフレームを試してみてくださいSparkRにAGG機能

TRUEではありません。 >SparkR::agg(SparkR::groupBy(df, "column_1")) は、なぜ私は次のエラーを取得するか： Error: length(cols) > 0 is not TRUE

1熱

1答えて

sparkRの列を割り当てます

こんにちは私はpysparkからsparkRへコードを移行しようとしています。いくつかの列を修正するために、私はpysparkで 'WithColumn'を使用しました。ただし、sparkRでは新しい列が生成されます。私はその後も良いです df$a <- f(df$a) のようなものを試してみました。しかし、私はそれを関数やループの中で使い、いくつかの変数に対して繰り返したいとします。この場合

2熱

1答えて

SparkR MLlib＆spark.ml：最小二乗法とglm最適化

SparkR演算で最適化メソッドを指定する方法について誰でも説明できますか？glm？ glmとOLSモデルを適合させようとすると、ソルバータイプとして"normal"または"auto"しか指定できません。 SparkRは私が"auto"を指定したとき、SparkRは単に「"normalを前提としていることを信じるように私をリードし、ソルバー仕様"l-bfgs"を解釈することができませんし、その後正

0熱

1答えて

SparkRデータフレームからR data.frameへの変換は2百万レコードで完了しません

R StudioサーバーでSparkRを使用しています。 sqlContextを作成した後、sparkRでいくつかのテーブルを処理し、R関数を使用して回帰モデルを開発するためにR data.frameに変換したい最終的なテーブル2.2百万レコードを残しました。しかし、 "as.data.frame（finaltable）"のコードは、メモリの問題のために2時間後に実行されることはありません。私は同

1熱

2答えて

Spark R - Spark Rの `factors（）`に相当するものは何ですか？

Rからは、factors()という関数があります。この関数を並列化してSpark Rで使用したいと思います。 Sparkのバージョンは1.6.2で、documentationの同等のものは見つかりません。私はマップでそれを行うことができると思ったが、私はthis answerを理解しているとは確信していないし、より簡単な方法があるはずである。したがって、簡単に言えば、factors()はSpar

1熱

1答えて

RのddplyをsparkR関数に変換する

データフレームdfには何百万行もあります。私はddplyとユーザ定義関数udfを使用しています。 res <- ddply(df, c("id"),function(x){udf(x)} これはかなりうまく動作しますが、それは理由udfの私は推測する（それは約4時間かかります）非常に遅いです。多くのケースをチェックします。私はsparkRで同じ機能を実行したいと思います。 SparkはR環境