0
次のとおりです。this exampleいくつかのドキュメントでTF-IDFの重み付けを計算しました。今私はRowMatrix
を使用してドキュメントの類似性を計算したいと考えています。しかし、データを適切な形式に合わせるのに問題があります。私が今持っているのは、行が(String、SparseVector)を2つの列の型として持つDataFrameです。私は、私は同じように簡単だろうと思ったRDD[Vector]
にこれを変換することになってる:Sparkでは、SparseVectorでDataFrameをRDD [Vector]に変換する方法は?
features.map(row => row.getAs[SparseVector](1)).rdd()
しかし、私はこのエラーを取得:spark.implicits._
のインポート
<console>:58: error: Unable to find encoder for type stored in a
Dataset. Primitive types (Int, String, etc) and Product types (case
classes) are supported by importing spark.implicits._ Support for
serializing other types will be added in future releases.
には違いはありません。
何が起こっているのですか?私はSparkが独自のベクトルデータ型をどのようにエンコードするのか分からないことに驚いています。