BigQueryテーブルに毎日インクリメンタルデータを追加する予定です。インクリメンタルデータを既存のテーブルに追加するたびに、テーブル内の既存のデータから重複レコード(プライマリキーカラムに基づいて)を削除したいと考えています。 SELECT all_cols from table where pkey_col NOT IN (INCR_KEYS)
- - と新しいテーブルに結果を格納する行にクエリを実行し BigQueryテーブルの重複レコードを削除する
INCR_KEYS
それを呼び出すことができます)増分データからキーのセットを収集し
- - 一つのアプローチは、になります。
- 新しいテーブルにインクリメンタルデータを追加します。
私はこのアプローチで懸念しているのは、大きなテーブルの重複コピーを作成し、請求書に追加することです。
重複テーブルを作成せずに同じことを達成するより良い方法はありますか?
テーブルがどれくらい大きいですか?圧縮された64MBを超える場合、#2は失敗します。 –
@ RyanBoyd - それは問題ではありません。 INCR_KEYS> 64MBの場合、INCR_KEYSを小さなチャンクに分割して繰り返します。<2> – user1659408
問題は、フルテーブル(つまり、INCR_KEYSにないデータ)が> 64MBの場合です。 #2のSELECTクエリは成功しません。 –