0
私は、次のタイプのスパークデータセットを持っている:Spark Datasetをあるタイプから別のタイプにマッピングするときにエンコーダを指定する方法は?
org.apache.spark.sql.Dataset[Array[Double]]
私はml.clustering.KMeans.fit(のための入力データセットとして使用できるようにベクトルに配列をマッピングしたいです... )。だから私はこのような何かやろう:
val featureVectors = vectors.map(r => Vectors.dense(r))
をしかし、これは次のエラーで失敗します。
error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
私はマップ操作のためのエンコーダを指定する必要が推測するが、私は見つけるのに苦労しますそれを行う方法。何か案は?
ええ、私は実際にはドキュメントから遠く離れています。しかし、私は実際にそれを行う方法を理解していませんでした。また、Vectorがサポートされていない場合、どのようにml.clustering.kmeans実装への入力として文書化されていますか? https://spark.apache.org/docs/2.2.0/ml-clustering.html –