1
一部のレコードをBigQueryに一括読み込みしようとしていますが、数千ものレコードをアップロードするのに時間がかかります。BigQueryでのデータ読み込みが非常に遅い
次のコマンドを使用して、gzip形式のJSONファイルをロードしています。ファイルにはそれぞれ〜200行の〜2k行があります。
./bin/bq load --project_id=my-project-id --source_format=NEWLINE_DELIMITED_JSON dataset.table /tmp/file.json.gz
Waiting on bqjob_r3a269dd7388c7b8e_000001579a6e064f_1 ... (50s)
Current status: DONE
このコマンドは、レコードのロードに約50秒かかります。少なくとも100万レコードをロードしたいので、これには7時間かかります。これは、ペタバイトのデータを処理するツールではあまりにも多いようです。
処理を高速化できますか?
時間はプログレッシブではなく、1百万分の1時間でさえそれほど多くはかかることはありません。それを実行します。 – Pentium10