2017-12-27 248 views
0

Google Cloudを使用しています。バケット(GCS)のいずれかにサブフォルダを持つフォルダがあり、各サブフォルダには約600MB〜1.5GBのzipファイルがあります各。 もし私がzipファイルの数を出さなければならないとすれば、彼らはおよそ2000年以上のzipファイルであると言います。Google Cloud Bucket(GCS)で直接ファイルを解凍する

各zipファイルにはさまざまなサイズのCSVファイルがあります。 それぞれのファイルを解凍してから、csvファイルを読み込んで操作しなければなりません。 私の問題は、バケット内のファイルを解凍することができないことです。 現時点では、シェルスクリプトを使用して、一度に1つのサブフォルダを現在の作業ディレクトリにコピーして解凍し、GCSのバケットに書き戻し、古いunzipデータを削除するなどです。 私は一度に1つのサブフォルダを実行しています。すべてを1つのコピーにコピーしようとすると、現在の作業ディレクトリに空きがなくなります。 新しいデータを取得して新しいデータを取得する際に上記の作業を行う必要があります。頻繁に実行する バケット(GCS)自体のファイルを解凍するより良い方法やスマートな方法はありますか?

答えて

0

GCSアップロードでは、一度に1つのオブジェクトしか作成されないため、ファイルを解凍するメカニズムはありません。

あなたの現在の作業ディレクトリでの制限はわかりませんが、zipファイルをアップロードしてからGoogle Compute Engineインスタンスに接続された永続ディスクにダウンロードしてそこに解凍する方法があります解凍したファイルをgsutilを使用してアップロードします。すべての解凍された内容を保持できる大きな永続ディスクを作成できるはずです。

+0

トラヴィスの情報ありがとうございます。 – Irfan

関連する問題