2016-10-06 18 views
1

一部のレコードをBigQueryに一括読み込みしようとしていますが、数千ものレコードをアップロードするのに時間がかかります。BigQueryでのデータ読み込みが非常に遅い

次のコマンドを使用して、gzip形式のJSONファイルをロードしています。ファイルにはそれぞれ〜200行の〜2k行があります。

./bin/bq load --project_id=my-project-id --source_format=NEWLINE_DELIMITED_JSON dataset.table /tmp/file.json.gz 
Waiting on bqjob_r3a269dd7388c7b8e_000001579a6e064f_1 ... (50s) 
Current status: DONE 

このコマンドは、レコードのロードに約50秒かかります。少なくとも100万レコードをロードしたいので、これには7時間かかります。これは、ペタバイトのデータを処理するツールではあまりにも多いようです。

処理を高速化できますか?

+1

時間はプログレッシブではなく、1百万分の1時間でさえそれほど多くはかかることはありません。それを実行します。 – Pentium10

答えて

0

--nosyncフラグを使用してください。これにより、ビジュアルクエリーよりも非同期ジョブが開始され、パフォーマンスが大幅に向上しています。

Google Cloud Storageにfile.json.gzを保存することをお勧めします。

./bin/bq load --nosync 
関連する問題