sparkr

    0

    1答えて

    私はSparkR DataFrameを重複した観測値で持っています。重複を削除する簡単な方法が見つからず、SparkRでPySpark dropDuplicates()関数を使用できないようです。たとえば、次のようなものがある場合はDataFrameですが、fullnameが重複しているという事実に基づいて、2行目と4行目を削除するにはどうすればよいですか? newHires <- data.fr

    0

    1答えて

    次の構成のクラスタでsparkR(spark 2.0.0、yarn)を使用しています。マシン5台(24コア+各200GB RAM)。私の仕事への総資源の割合のみを割り当てるために追加の引数でsparkR.session()を実行するために募集: if(Sys.getenv("SPARK_HOME") == "") Sys.setenv(SPARK_HOME = "/...") library(

    1

    2答えて

    私はSparkR DataFrameを持っていて、一意のそれぞれnameに対してモード(多くの場合)valueを取得したいと考えています。これどうやってするの?組み込みのmode機能はないようです。 SparkRまたはPySparkのいずれかのソリューションが動作します。 #Create DF df <- data.frame(name = c("Thomas", "Thomas", "Thom

    0

    2答えて

    列の1つがのリストのリストを含むR data.frameを持っています。つまり、各要素には整数のリストが埋め込まれています。 SparkRはエラーを返していますが、このdata.frameをSparkR DataFrameに変換したいと思います。ここで は、問題を与える例のRのdata.frameを作成する方法は次のとおりです。myDfを見て indices <- 1:4 myDf <- dat

    0

    1答えて

    WindowsプラットフォームでRstudioにSparkRを設定しようとしています。私はSparkをインストールし、コマンドプロンプトからSparkr.exeを実行できます。私はRStudioでスパークコンテキストを取得しようとすると、しかし、私は次のエラーを取得する: Error in sparkR.init(master = "local") : JVM is not ready after

    0

    2答えて

    私は以下のように顧客のSpark DataFrameを持っています。顧客が「新しい」のvalueを取得custIDための最初の月の観測で #SparkR code customers <- data.frame(custID = c("001", "001", "001", "002", "002", "002", "002"), date = c("2017-02-01", "201

    0

    1答えて

    私はPMMLとしてsparkRモデルをエクスポートしようとしています。 最初のアプローチは、PMMLライブラリを使用していました: library(pmml) sparkR.session() data(iris) df <- createDataFrame(iris) model <- spark.kmeans(df, Sepal_Length ~ Sepal_Width, k = 4,

    1

    1答えて

    私はCosmosDBにデータを取り込もうとしていますSparkR。私のデータがdataframe.Iでサンプルデータセットでテストされ、データが取り込まれています。私は確信してデータフレームと判断 :私は {[「要求サイズが大きすぎる」]「エラー」}のようなエラーを取得しています、大量のデータを摂取しようサイズは2MBを超えていません私は、文書の最大サイズがCosmosDBで2MBになることを知り

    0

    1答えて

    2つのSparkR DataFrames、newHiresDFおよびsalesTeamDFがあります。私はnewHiresDF$nameの値に基づいてnewHiresDFのサブセットを取得したいですが、それはsalesTeamDF$nameにありますが、これを行う方法がわかりません。以下は私の試みのコードです。 #Create DataFrames newHires <- data.frame(

    0

    1答えて

    Rで作成したデータフレームをJSONオブジェクトに変換し、そのJSONオブジェクトをsparkRに読み込みたいと思います。私の現在のプロジェクトでは、データフレームをSparkRに渡すだけでは済ませて、プロジェクトを動作させるためにこのラウンドアバウト方法を実行する必要があります。また、ローカルのJSONファイルを最初にsparkRに読み込むこともできません。そのため、データを保持するJSONオブ