がスパーク2.1

に大きなテーブルで、比較的小さなテーブルに参加し、私は現在、別のテーブルの上にその存在に基づいて、テーブルを更新するに取り組んでいます：がスパーク2.1

例：

データセットA（行の300K、比較的小さな）： DepartmentIdの、社員、給与、エラー（比較的大きな、数百万行）

データセットB：DepartmentIdの、社員給与

ロジックは次のとおりです。 1. Aさん（DepartmentIdの、社員）ペアがBに存在する場合、それ以外の場合はBの給与 2とAの給与を更新し、私が今持っているソリューションがやっているAのエラーフィールドに

をメッセージを書きますこのタイプの問題には他にも優れた方法がありますか？

ありがとうございます！パフォーマンスを向上させるため

2017-07-05 vincwng

、あなたは放送ハッシュを使用することができます

@Ram Ghadiyaramで言及hereとして参加する放送データフレームは、参加にパフォーマンスが向上し、すべてのパーティションに配布されます。

は、この情報がお役に立てば幸い！

2017-07-05 15:04:09

smallTable.join（bigTable）thoのブロードキャストハッシュジョインをしますか？ – vincwng

はい、broadcasr（smallTable）.join（bigTable）でも同様です –

答えて