0
私のデータセットはparallelize
ですが、再分割されたデータを使用してRowMatrix
をインスタンス化しようとすると、type mismatch
エラーが発生します。タイプの不一致 - ベクトルの代わりに(Int、Vector)
Main.scala:59: type mismatch;
found : org.apache.spark.rdd.RDD[org.apache.spark.rdd.RDD[(Int, org.apache.spark.mllib.linalg.Vector)]]
required: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector]
val mat: RowMatrix = new RowMatrix(repartitioned)
次のエラーを与える私は
RowMatrix
以来
val mat: RowMatrix = new RowMatrix(repartitioned)
を構築する方法は非常に確認していない今
val data = sc.textFile("data.txt.gz").flatMap(r => r.split(' ') match {
case Array(doc, word, count) => Some((doc.toInt, (word.toInt - 1, count.toDouble)))
case _ => None
}).groupByKey().mapValues(a => Vectors.sparse(vocab_size, a.toSeq))
val repartitioned = sc.parallelize(Seq(data), 10)
:
ここだが、データを読み取り、再分割のためのコードです
これは機能します。より正確には、 'val repartitioned = data.repartition(10);マット:RowMatrix =新しいRowMatrix(repartitioned.values) 'を実行します。どうもありがとう。 –