2017-06-30 16 views
1

N個のファイルを含むzipがあるとします。 Dataflowを使用して各ファイルを1つずつ処理します。これは可能ですか?圧縮ファイルを1つずつ読み取る

zip内の各ファイルを処理し、その中のデータをBigQueryテーブルにダンプする必要があります。したがって、各ファイルは別々のBigQueryテーブルにダンプされます。

Dataflowを使用してzipファイルを読み込もうとしましたが、一度にすべてを読み込みました。私は、ジッパー内のさまざまなファイルを区別することができなければなりません。

はあなたが

+0

なぜsecuenciallyと並列ではありませんか?それぞれのファイルを個別に圧縮してクラウドストレージに保存してから、ETLを実行することができます –

答えて

0

私はあなたがファイルや出力タプルを(ファイル名、ZIPファイル)のペア、または(オフセット、zipファイル)ペアのカタログを読むために1 DoFnを書くことができると思いますありがとうございました。次に、下流のステップでは、別のワーカーに分割されたペアが受信され、zipから別々のファイルを並行して読み込むことができます。

私は、(1)ファイルをzipにリストし、(2)解凍する特定のファイルを解凍するAPIがあると仮定します。うまくいけば、このアプローチがうまくいくでしょう。

+0

これと同じことを並行して実行したい場合はどうすればよいでしょうか? – rish0097

+0

基本的には、フォルダ内のいくつかのファイル(zip/unzipped)から読み込み、処理して別々のBigQueryテーブルにダンプしたいというケースがあります。ファイルのデータをダンプするBigQueryのテーブルは、ファイル名によって決まります。あなたはそのようなシナリオで何をすることをお勧めしますか? – rish0097

+0

こんにちは@AlexAmato ...申し訳ありません、私は前のコメントであなたにタグを付けるのを忘れました...私はあなたがそれを見たかどうかわかりません...とにかくあなたの考えを知らせてください...ありがとう – rish0097

関連する問題