2017-01-07 11 views
1

1)MLlib Random Forestを使用しようとしています。 2列 Scala - SparkのDstream操作がRのCbindと似ています

id, predicted_value 
1, 0.5 
2, 0.4 

私の機能セット

を持っている必要があり、私の最終的な出力は スコア、データとスコアリング---電車を訓練しているが、私は訓練し、得点するとき、それは次のような特徴として使用することができなかったように私は、idフィールドをドロップそれが今、私はスコアが私の得点出力が

predicted_value 
0.5 
0.4 

のように見えます

を予測し得る。しかし、私はID

に戻ってそれを結ぶたい、各行に対して一意であり、予測には知性を持っていません

別のDStreamにidフィールドを持ち、別のDStreamにpredict_valueを持っています。どのように私はそれをお互いにバインドするには、私は結合を行うための列フィールドを持っていません。

どうすれば結構ですか?例えば、Rは異なるデータフレームから2つの列を束縛できる関数cbindを持っています

x<-data.frame(cbind(testIds,p$p1)) 

可能なのはありますか?それとも代替手段がありますか?

2)私は、スパークストリーミングの使用を予測するためにMLlibランダムフォレストモデルを使用しています。最後に、さらに下流の処理のために、機能Dstream &予測Dstreamを結合したいと考えています。 どうすればいいですか?

ありがとうございます。

答えて

0

あなたはDStream.transformを使用することができますし、予測する:

dstream.transform(rdd => { 
    val predictions = model.predict(rdd) 
    rdd.zip(predictions) 
}) 
関連する問題