次のメソッドは、spark-sqlが提供するrow_number関数を使用して、有効なデータフレームと無効なデータフレームを生成します。私はcassandraへのアクセスを持っていないので、ここでは単純なDataframeを使用しています。
import sqlContext.implicits._
val df = sc.parallelize(Seq(("a" -> 1), ("b" -> 2), ("c" -> 3), ("d" -> 4), ("a" -> 5), ("a" -> 6), ("c" -> 7), ("c" -> 8))).toDF("c1", "c2")
df.registerTempTable("temp_table")
val masterdf = sqlContext.sql("SELECT c1, c2, ROW_NUMBER() OVER(PARTITION BY c1 ORDER BY c2) as row_num FROM temp_table")
masterdf.filter("row_num = 1").show()
+---+---+-------+
| c1| c2|row_num|
+---+---+-------+
| a| 1| 1|
| b| 2| 1|
| c| 3| 1|
| d| 4| 1|
+---+---+-------+
masterdf.filter("row_num > 1").show()
+---+---+-------+
| c1| c2|row_num|
+---+---+-------+
| a| 5| 2|
| a| 6| 3|
| c| 7| 2|
| c| 8| 3|
+---+---+-------+
私はdropDuplicates'は、重複のグループごと_first_の記録を保持するために、任意の保証を提供し 'とは思わない - 少なくとも[ドキュメント]には、このような保証はありません(https://spark.apache.org/ docs/2.1.1/api/scala/index.html#[email protected]())。私はそれがSpark Shellで "偶然"しか動作しないと思います(1つのパーティションしかありません)。別のアプローチ、たとえば'groupBy'を使って –
あなたの返事をありがとう。今私はgroup byを使ってこれに対する解決策を得ました。しかし、それでも何が問題なのか正確にはわからない。ドキュメンテーションが改善されればより良いでしょう –