2017-09-11 57 views
0

gcsには多くのgzippedファイルがあります。データフロージョブを高速化するために、ファイルの解凍コピーを作成したいと考えています。データフローTextIOは、圧縮ファイルでは高速ではありません。gzipで圧縮されたファイルをGCSで解凍した最も効果的な方法は何ですか?

私は、gcsでファイルの解凍されたコピーを作るのが最も効果的な方法を理解しようとしています。

私はちょうど簡単なダウンロードプログラムを書こうと思っていましたが、私はgsutilと同じパフォーマンスを得ることができません。

この質問に対する答えは、gcsからファイルをスーパーユーザー、簡単にダウンロードする方法、gcs上でファイルをコピーして解凍する方法の例です。

答えて

0

GCSからobject change notificationsを処理するApp EngineまたはCompute Engineアプリケーションを実装して、新しくアップロードしたgzipファイルを検出し、対応する解凍済みファイルをGCSに読み書きすることができます。これはおそらく、社内ネットワークにダウンロードして再アップロード(インターネット接続の速度にもよりますが)より速いでしょう。

+0

これはおそらく私たちの長期的な計画ですが、現在のプロセスでは簡単に絞ることはできません。私は何とかデータフローの仕事でそれを解決するつもりです。 –

関連する問題