sparkr

0熱

1答えて

私はSparkR DataFrameを重複した観測値で持っています。重複を削除する簡単な方法が見つからず、SparkRでPySpark dropDuplicates()関数を使用できないようです。たとえば、次のようなものがある場合はDataFrameですが、fullnameが重複しているという事実に基づいて、2行目と4行目を削除するにはどうすればよいですか？ newHires <- data.fr

0熱

1答えて

SparkR - spark.confのデフォルトパラメータをオーバーライド

次の構成のクラスタでsparkR（spark 2.0.0、yarn）を使用しています。マシン5台（24コア+各200GB RAM）。私の仕事への総資源の割合のみを割り当てるために追加の引数でsparkR.session（）を実行するために募集： if(Sys.getenv("SPARK_HOME") == "") Sys.setenv(SPARK_HOME = "/...") library(

1熱

2答えて

spark列のgroupByでモード（多くの場合）値を取得する

私はSparkR DataFrameを持っていて、一意のそれぞれnameに対してモード（多くの場合）valueを取得したいと考えています。これどうやってするの？組み込みのmode機能はないようです。 SparkRまたはPySparkのいずれかのソリューションが動作します。 #Create DF df <- data.frame(name = c("Thomas", "Thomas", "Thom

0熱

2答えて

Rのリストを要素とするSparkRデータフレーム

列の1つがのリストのリストを含むR data.frameを持っています。つまり、各要素には整数のリストが埋め込まれています。 SparkRはエラーを返していますが、このdata.frameをSparkR DataFrameに変換したいと思います。ここでは、問題を与える例のRのdata.frameを作成する方法は次のとおりです。myDfを見て indices <- 1:4 myDf <- dat

0熱

1答えて

WindowsプラットフォームのRStudioでSparkRを設定する。 JVMが10秒後に準備完了していません

WindowsプラットフォームでRstudioにSparkRを設定しようとしています。私はSparkをインストールし、コマンドプロンプトからSparkr.exeを実行できます。私はRStudioでスパークコンテキストを取得しようとすると、しかし、私は次のエラーを取得する： Error in sparkR.init(master = "local") : JVM is not ready after

0熱

2答えて

Sparkで元に戻す値の特定

私は以下のように顧客のSpark DataFrameを持っています。顧客が「新しい」のvalueを取得custIDための最初の月の観測で #SparkR code customers <- data.frame(custID = c("001", "001", "001", "002", "002", "002", "002"), date = c("2017-02-01", "201

0熱

1答えて

sparkRモデルをPMMLとしてエクスポートするには？

私はPMMLとしてsparkRモデルをエクスポートしようとしています。最初のアプローチは、PMMLライブラリを使用していました： library(pmml) sparkR.session() data(iris) df <- createDataFrame(iris) model <- spark.kmeans(df, Sepal_Length ~ Sepal_Width, k = 4,

1熱

1答えて

コスモスDBに服用中にリクエストサイズが大きすぎます

私はCosmosDBにデータを取り込もうとしていますSparkR。私のデータがdataframe.Iでサンプルデータセットでテストされ、データが取り込まれています。私は確信してデータフレームと判断：私は {[「要求サイズが大きすぎる」]「エラー」}のようなエラーを取得しています、大量のデータを摂取しようサイズは2MBを超えていません私は、文書の最大サイズがCosmosDBで2MBになることを知り

0熱

1答えて

別のDataFrameの列の値と一致する列の値に基づいてSparkR DataFrameをサブセット化する

2つのSparkR DataFrames、newHiresDFおよびsalesTeamDFがあります。私はnewHiresDF$nameの値に基づいてnewHiresDFのサブセットを取得したいですが、それはsalesTeamDF$nameにありますが、これを行う方法がわかりません。以下は私の試みのコードです。 #Create DataFrames newHires <- data.frame(

0熱

1答えて

Rで作成したJSONオブジェクトをsparkRに読み込む方法

Rで作成したデータフレームをJSONオブジェクトに変換し、そのJSONオブジェクトをsparkRに読み込みたいと思います。私の現在のプロジェクトでは、データフレームをSparkRに渡すだけでは済ませて、プロジェクトを動作させるためにこのラウンドアバウト方法を実行する必要があります。また、ローカルのJSONファイルを最初にsparkRに読み込むこともできません。そのため、データを保持するJSONオブ