Pysparkで2つのデータフレームを比較する方法

c = df[df['CUSTOMER_EMAIL_ID'].isin(d.CUSTOMER_EMAIL_ID)]

何をしたいですか？もっと詳しく説明できますか？あなたは比較したいのですか、存在するかどうかチェックしますか？ –

あなたは、私はあなたの質問は具体的には、semi joinを使用して答えることができると思い、「私にCUSTOMER_EMAIL_IDフィールドがdにCUSTOMER_EMAIL_IDフィールドから一致する値を持つdfからすべての行を与える」求めている場合：

を

c = df.join(b, 'CUSTOMER_EMAIL_ID', 'leftsemi')

左（右）セミ結合は、概念的にはインナー結合として考えられ、続いて右（左）の列が削除されます。

2017-05-15 16:18:48 user1993951

答えて