CloudでETLプロセスを実装しました:ローカルデータベースでクエリを実行する=>結果をcsvとして保存し、クラウドストレージにロードする=>クラウドストレージからファイルをロードするBigQuery table =>次のクエリを使用して重複レコードを削除します。BigQuery - 時には重複するレコードを削除する
SELECT
* EXCEPT (row_number)
FROM (
SELECT
*,
ROW_NUMBER() OVER (PARTITION BY id ORDER BY timestamp DESC) row_number
FROM rawData.stock_movement
)
WHERE row_number = 1
今朝重複レコードを除去する工程がはるかに長く、それよりも通常かかります午前8時(ベルリンで現地時間)ので、でも、データの量が大きく異なることが通常よりもないんです。これは通常10秒かかります今日の午前中に重複したレコードを削除することがあります。
重複レコードを削除するとパフォーマンスが安定しませんか?