をモデリングするとき、私はちょうどCentOSの上sparkR 1.6.1をインストールしているとのHadoopを使用していない確率を予測する方法。次のように個別の「ターゲット」の値を使用してデータをモデル化するための私のコードは次のとおりです。sparkR 1.6:GLM(二項ファミリ)
# 'tr' is a R data frame with 104 numeric columns and one TARGET column
# TARGET column is either 0 or 1
# Convert 'tr' to spark data frame
train <- createDataFrame(sqlContext, tr)
# test is an R dataframe without TARGET column
# Convert 'test' to spark Data frame
te<-createDataFrame(sqlContext,test)
# Using sparkR's glm model to model data
model <- glm(TARGET ~ . , data = train, family = "binomial")
# Make predictions
predictions <- predict(model, newData = te)
私は次のように成功したか失敗したかを評価することができる午前(私は正しい午前願っています):
modelPrediction <- select(predictions, "prediction")
head(modelPrediction)
prediction
1 0
2 0
3 0
4 0
5 0
6 0
しかし、ときに私確率を評価したい場合は、次のような結果が得られます。
modelPrediction <- select(predictions, "probability")
head(modelPrediction)
probability
1 <environment: 0x6188e1c0>
2 <environment: 0x61894b88>
3 <environment: 0x6189a620>
4 <environment: 0x618a00b8>
5 <environment: 0x618a5b50>
6 <environment: 0x618ac550>
テストイベントの確率値を得るために助けてください。ありがとう。
頭の結果を含めることができますか? – SpiritusPrana