0
データセットtest.txt
があります。以下のようなデータが含まれていますspark scalaの重複をマッピングして削除しますか?
1::1::3
1::1::2
1::2::2
2::1::5
2::1::4
2::2::2
3::1::1
3::2::2
以下のコードを使用してデータフレームを作成しました。
case class Rating(userId: Int, movieId: Int, rating: Float)
def parseRating(str: String): Rating = {
val fields = str.split("::")
assert(fields.size == 3)
Rating(fields(0).toInt, fields(1).toInt, fields(2).toFloat)
}
val ratings = spark.read.textFile("C:/Users/cravi/Desktop/test.txt").map(parseRating).toDF()
しかし、私は、私は、出力
[1,1,3.0]
[1,1,2.0]
[1,2,2.0]
[2,1,2.0]
[2,1,4.0]
[2,2,2.0]
[3,1,1.0]
[3,2,2.0]
の下に取得しています。しかし、私はつまり、以下のような出力を印刷したい出力を印刷しようとしています重複した組み合わせを削除し、field(2) value 1.0
の代わりに削除します。
[1,1,1.0]
[1,2,1.0]
[2,1,1.0]
[2,2,1.0]
[3,1,1.0]
[3,2,1.0]
どうすればこの問題を解決できますか。
? –