私はHiveデータベースで動作するスカラー/スパークパッケージを持っています。これは、クエリが、データがある特定の値Hive-データを素早く確認する
SELECT * FROM myTable WHERE col1 = 7879 AND col2= 1071 AND col3= 3027 LIMIT 1;
存在する場合、それは行を返すかどうかに基づいて進行チェックするために実行されるループを実行します。実行には約25秒かかります。私はこの方法は、カウントが0に
あるか否かに基づいて、
SELECT COUNT(*) FROM myTable WHERE col1 = 7879 AND col2= 1071 AND col3= 3027;
と先に進むよりも速く動作することを見てきました
は、データがテーブルに存在するかどうかを確認するためのより高速な方法はあります特定の制約のために?
EDIT-ループは、結果として得られた別のクエリの行に基づいて実行されます(結果として100以上の行)。
更新された回答を確認する –