2017-02-20 14 views
1

私は2つのデータフレームを持っています。データフレーム-Bのいくつかの共通の列値に基づいて、データフレーム-Aのレコードをいくつか削除します。Spark Dataframeで複数のキーを持つ重複レコードをフィルタリングする方法は?

例: データフレーム-A:

A B C D 
1 2 3 4 
3 4 5 7 
4 7 9 6 
2 5 7 9 


データフレーム-B:

A B C D 
1 2 3 7 
2 5 7 4 
2 9 8 7 


Keys: A,B,C columns 

所望の出力:

A B C D 
3 4 5 7 
4 7 9 6 

この問題の解決方法はありますか。あなたはleft anti-joinを探している

答えて

3

df_a.join(df_b, Seq("A","B","C"), "leftanti").show() 
+---+---+---+---+ 
| A| B| C| D| 
+---+---+---+---+ 
| 3| 4| 5| 7| 
| 4| 7| 9| 6| 
+---+---+---+---+ 
関連する問題