Spark Dataframeで複数のキーを持つ重複レコードをフィルタリングする方法は？

私は2つのデータフレームを持っています。データフレーム-Bのいくつかの共通の列値に基づいて、データフレーム-Aのレコードをいくつか削除します。Spark Dataframeで複数のキーを持つ重複レコードをフィルタリングする方法は？

例：データフレーム-A：

データフレーム-B：

Keys: A,B,C columns

所望の出力：

A B C D 
3 4 5 7 
4 7 9 6

この問題の解決方法はありますか。あなたはleft anti-joinを探している

出典

2017-02-20 VSP

：

df_a.join(df_b, Seq("A","B","C"), "leftanti").show() 
+---+---+---+---+ 
| A| B| C| D| 
+---+---+---+---+ 
| 3| 4| 5| 7| 
| 4| 7| 9| 6| 
+---+---+---+---+

出典

2017-02-20 19:15:35 mtoto

Spark Dataframeで複数のキーを持つ重複レコードをフィルタリングする方法は？

答えて

関連する問題