1
BigQueryで最高のサンプリング方法を見つけようとしています。私のデータセットはかなり大きく(11B行)、分布は歪んでいる傾向があります。これまで私はこれらの2つのオプションを調べてきました。BigQueryでRAND()はどのように動作しますか?
- ハッシュ - ここではサンプルを選択するために特定の値のハッシュを取っています。これはかなり簡単なアプローチであり、その背後にある仕組みははっきりしています。 私の質問は2番目のオプションについてです:
- RAND()関数を使用しています。私はここでBigQueryのリファレンスを見て、それを使う方法を理解しています: https://cloud.google.com/bigquery/docs/reference/legacy-sql#rand しかし、私はこの機能がどのくらい正確に機能しているのか分かりません。
誰もがそこで起こっている背景のものにいくつかの光を当てることができますか?
どうもありがとう、 Gallory