Cloud StorageからBigQueryにデータをロードする最も効率的な方法を理解しようとしています。効率的に私が意味するのは - 好ましくは、データを小さなセットに分割して各サブセットを別々にアップロードしたくない場合 - 私のデータを解凍するので、bqツールの5 TB制限を活用することもできます。別々のBigQueryテーブルに30(> 4GB)を超えるデータセットCloud StorageからBigQueryへのデータのストリーミング
私は次の選択肢の中に見てきました: 1. BQ負荷 - 、圧縮されたデータに 2分割されたデータを4GBの制限があるパンダのデータフレームに変換し、JSONに変換し、BQへの負荷 - これは分割を必要とし、そのI私がアップロードしなければならないデータセットの数が与えられているのを避けたいのですが、それらはすべて異なる行サイズを持っているので、手元のタスクを自動化するのは簡単ではありません。 3.クラウドデータフロー?
私はDataflowの詳細を調べていませんが、全体的な質問はデータを分割してバッチアップロードを実行するか、データをストリームする、つまり一度に1行挿入するクラウドストレージからBQへ
ストリーミングに対して100%投票しました –
.gzファイルは断片化可能な圧縮形式ではないため、大容量の.gzファイルをデータストレージに使用すると、大規模なデータ分析フレームワークに問題が発生します。たとえ100GBの.gzファイルがサポートされていても、1人の作業者がそのファイルを処理するには*長い時間がかかります。 –