Spark SQLでSQLクエリを再作成しようとしました。条件でのSubselectを使用したSparkデータセット
INSERT INTO Table_B
(
primary_key,
value_1,
value_2
)
SELECT DISTINCT
primary_key,
value_1,
value_2
FROM
Table_A
WHERE NOT EXISTS
(
SELECT 1 FROM
Table_B
WHERE
Table_B.primary_key = Table_A.primary_key
);
スパークSQLは簡単ですし、私は新しいデータセットにTempViewからデータを読み込むことができます。通常、私はこのようなテーブルに挿入します。残念ながらwhere節を再構築する方法はわかりません。
Dataset<Row> Table_B = spark.sql("SELECT DISTINCT primary_key, value_1, value_2 FROM Table_A").where("NOT EXISTS ... ???");