1
に大きなテーブルで、比較的小さなテーブルに参加し、私は現在、別のテーブルの上にその存在に基づいて、テーブルを更新するに取り組んでいます:がスパーク2.1
例:
データセットA(行の300K、比較的小さな): DepartmentIdの、社員、給与、エラー(比較的大きな、数百万行)
データセットB:DepartmentIdの、社員給与
ロジックは次のとおりです。 1. Aさん(DepartmentIdの、社員)ペアがBに存在する場合、それ以外の場合はBの給与 2とAの給与を更新し、私が今持っているソリューションがやっているAのエラーフィールドに
をメッセージを書きますこのタイプの問題には他にも優れた方法がありますか?
ありがとうございます!パフォーマンスを向上させるため
smallTable.join(bigTable)thoのブロードキャストハッシュジョインをしますか? – vincwng
はい、broadcasr(smallTable).join(bigTable)でも同様です –