私は2つのテーブルを持っています:除外とkaggleresults。表1には存在するが表2には存在しないレコードを取得する方法は?
scala> spark.sql("select * from excluded").count()
res136: Long = 4652
scala> spark.sql("select * from kaggleresults").count()
res137: Long = 4635
違いは、私はそれらの17件のレコードを取得しようとしています17
scala> res136-res137
res139: Long = 17
です:私はexcluded
に存在するがkaggleresults
カウントに存在しないレコードを検索しようとしています。私は以下の質問を書いたが、代わりに38
を返す。
scala> spark.sql("select * from excluded left join kaggleresults on kaggleresults.subject_id = excluded.subject_id where kaggleresults.subject_id is null").count()
res135: Long = 38
質問
何クエリ私はそれらの17件のレコードを取得するために記述する必要がありますか?
これらのテーブル間の共通IDを教えてください。 –
アンソニーの除外クエリが正しく表示されます。あなたは、EXISTS、NOT INのように、左の結合を使って行うことができますが、38のレコードが存在しないため、すべての結果が38になる可能性があります。あなたは17と言っていますが、起こりうる1つのバリエーションは、除外されていないkagglersultsにあるレコードです。17のような21レコードがあります。 – Matt
@Anthonyあなたのために働くでしょう –