私は2つのデータフレームを持ってAとBと言うことができます。は効率的に結合され、他のデータフレームとのデータフレームのデータを結合しません
キー上でBと結合するデータフレームAと結合されなかったレコードからレコードを取得したいと思います。
これは単一のクエリで実行できますか? 同じデータを2回上書きするとパフォーマンスが低下するため、データフレームAのサイズはBよりはるかに大きいです。 データフレームBのサイズは約50Gb〜100GBです。 そのため、私はBを放送できません。
AのデータがBで結合されているかどうかを示す "Yes"または "No"の値を持つ結合列 "結合"を持つ単一のDataframe Cを得ることができます。
Aに重複がある場合はどうなりますか?私はそれらを望んでいません。 私はrecudeByKeyをCのデータフレームの後で行うことを考えていました。その周りの任意の提案?
私はハイブテーブルを使用して、HDFSにORCファイル形式のデータを保存しています。 コードをスカラーで書く。
から列を削除するには
drop
の行を追加している私は、キーと記録にBと結合データフレームAからレコードを取得したいです参加していない人もいます(これらはDataframe A自体のレコードです)。 私はBだけではなく、Aからの行を必要とします。Bと結合したAからの行と、Bと結合しなかったものがBで一致するかどうかを列でマークしました。 – grv