2017-10-10 21 views
0

Google Cloud Storageで作成したバケットにBigQueryのテーブルデータをエクスポートしようとしています。BigQuery複数のワイルドカードURIを使用したデータのエクスポート

単一のワイルドカードURIを使用してBigQueryのテーブルをGCSにエクスポートすると、自動的にテーブルが複数のシャードされたファイル(ファイルあたり約368 MB)に分割され、GCSの指定されたバケットに着陸します。

bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/*.csv' 

ファイルサイズとファイルの数が同じ(ファイルあたり368の周りMB)に残っていても複数のURIを使用した:

bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/1-*.csv','gs://<gcs_bucket>/2-*.csv','gs://<gcs_bucket>/3-*.csv','gs://<gcs_bucket>/4-*.csv','gs://<gcs_bucket>/5-*.csv' 

私はここで

は、コマンドです複数のURIを使用してファイルサイズを小さくする方法を理解しようとしています。

答えて

1

BigQueryは生成されるファイルサイズを保証していないと考えていますので、ファイルサイズは複数のワイルドカードURIを指定してもしなくてもかまいません。

複数のワイルドカードURIの一般的な使用例は、出力ファイルをN個のパターンに均等に配布するようにBigQueryに指示するため、各出力URIパターンを下流のワーカに送ることができます。

関連する問題