に分けました。私は3つの分離したrdd [mllib .... vectors]を持っています。 1つのrdd [mllibベクトル]。spark(scala)3つの分離したrdd [org.apache.spark.mllib.linalg.Vector]を1つのrdd [Vector]
val vvv = my_ds.map(x=>(scaler.transform(Vectors.dense(x(0))),Vectors.dense((x(1)/bv_max_2).toArray),Vectors.dense((x(2)/bv_max_1).toArray)))
詳細: スケーラ=> StandardScaler bv_maxは_...正規化するためのケースでは風のLIBからDenseVectorに他ならない(X /最大(x))を
今私はそれらを確認する必要があり私は([1。]、[2。]、[3。])と[[1。]、[2。]、[3。]] を手に入れます。 しかし、私は[1.、 3]を1つのベクトルとして
サンプルデータセットを共有できますか?今のところあなたのコードは再現性がありません。 – mtoto
上記のコードは、 ([-1.0879352081573068]、[0.1282051282051282]、[1.0]) ([-0.33536545781646926]、[0.1282051282051282]、[1.0])を生成します。データセット部分===> val my_ds = raw_ds.map(x => Vectors.dense(x.days、x.freq、x.food))これはraw_dataのサンプルです。===> 23,5,2 ......しかし、私は上記のvvvを([-0.33536545781646926]、[0.1282051282051282]、[1.0])=== to ===> [ - 0.33536545781646926,0.1282051282051282のように単一のベクトルとしてマップする必要があります。 1.0]と私はKMeansに渡すことができます...私はこれが助けて欲しい...事前に感謝 –