gcsには多くのgzippedファイルがあります。データフロージョブを高速化するために、ファイルの解凍コピーを作成したいと考えています。データフローTextIO
は、圧縮ファイルでは高速ではありません。gzipで圧縮されたファイルをGCSで解凍した最も効果的な方法は何ですか?
私は、gcsでファイルの解凍されたコピーを作るのが最も効果的な方法を理解しようとしています。
私はちょうど簡単なダウンロードプログラムを書こうと思っていましたが、私はgsutil
と同じパフォーマンスを得ることができません。
この質問に対する答えは、gcsからファイルをスーパーユーザー、簡単にダウンロードする方法、gcs上でファイルをコピーして解凍する方法の例です。
これはおそらく私たちの長期的な計画ですが、現在のプロセスでは簡単に絞ることはできません。私は何とかデータフローの仕事でそれを解決するつもりです。 –