spark ml/mllibドキュメントを参照すると、それらはすべてsvmストアド・サンプルから始まります。これは、標準のRDD [行]またはデータフレーム(「テーブル」選択から取得したもの)を最初に格納することなくこの表記法に移行する直接的な方法ではないように思われるため、実際には悔しいことです。spark:データフレームをsvmラベル付けされたポイントに変換する
これは3つの機能を扱う場合には不便ですが、それを多くの機能にまで拡張すると、多くの入力と検索が行われることになります。
私はこのようなものになってしまった:(「電車」がテーブルに格納されている機能/ Wデータセットのランダムな分割です)
val trainLp = train.map(row => LabeledPoint(row.getInt(0).toDouble, Vectors.dense(row(8).asInstanceOf[Int].toDouble,row(9).asInstanceOf[Int].toDouble,row(10).asInstanceOf[Int].toDouble,row(11).asInstanceOf[Int].toDouble,row(12).asInstanceOf[Int].toDouble,row(13).asInstanceOf[Int].toDouble,row(14).asInstanceOf[Int].toDouble,row(15).asInstanceOf[Int].toDouble,row(18).asInstanceOf[Int].toDouble,row(21).asInstanceOf[Int].toDouble,row(27).asInstanceOf[Int].toDouble,row(28).asInstanceOf[Int].toDouble,row(29).asInstanceOf[Int].toDouble,row(30).asInstanceOf[Int].toDouble,row(31).asInstanceOf[Double],row(32).asInstanceOf[Double],row(33).asInstanceOf[Double],row(34).asInstanceOf[Double],row(35).asInstanceOf[Double],row(36).asInstanceOf[Double],row(37).asInstanceOf[Double],row(38).asInstanceOf[Double],row(39).asInstanceOf[Double],row(40).asInstanceOf[Double],row(41).asInstanceOf[Double],row(42).asInstanceOf[Double],row(43).asInstanceOf[Double])))
これらの行は、傾向があるので、これは、維持するために悪夢でありますかなり頻繁に変更する。
ここで私はラベル付けされたポイントを取得する段階にありますが、私はこのデータのSVMを保存したバージョンでさえありません。
ここで私は何が悲惨な日々を救うことができますか?
EDIT:
私は何かを使用して一歩近づく解になったが、通常私のベクトル
を介して動作私はpsparkを使用してexacttly同じfrusterating問題、イムを持っています –