Google Cloudストレージからファイルを読み取り、ファイルのフィールドであるtransaction_dateに基づいて複数のファイルに分割する必要があります。ファイルサイズは約6 TBです(複数のファイルに分割されています)。これを達成する最も効果的な方法は何ですか?これを行うには他の簡単な方法でDataflowやDataprocを使用する必要がありますか?Googleクラウドストレージ - ファイル内の値でファイルを分割する
0
A
答えて
1
私は、transaction_date
ごとに別々の(シャードされた)ファイルを書きたいと思っています。データフローに同梱されているTextIO.Write
には直接的なサポートはありませんが、日付範囲を知っている特殊なケースがあると思われるため、〜11個の異なるフィルタリング済みのTextIO.Write
変換を手動で作成します。
PCollection<Record> input = ...
for (Date transaction_date : known_transaction_dates) {
input.apply(Filter.by(<record has this date>)
.apply(TextIO.Write.to(
String.format("gs://my-bucket/output/%s", transaction_date)));
}
これは確かに理想的ではありません。 BigQueryIO
には、データのウィンドウ化に基づいて別のテーブルに書き込む機能があります。同様の機能をTextIO
に追加すると、ユースケースに対応する可能性があります。それ以外の場合は、さまざまな種類のデータ依存の書き込みがレーダー上にあり、あなたのようなケースが含まれます。
関連する問題
- 1. Googleクラウドストレージ内のフォルダ内のファイルを削除する
- 2. AndroidのGoogleクラウドストレージ重複ファイル
- 3. Googleのクラウドストレージ内のファイルのダウンロードを追跡するには
- 4. フォルダ内のGoogleクラウドストレージからファイルをダウンロードする
- 5. ファイルをtalend内の他のファイルに分割する
- 6. 分割dmpファイルを複数のdmpファイルに分割する
- 7. 分割ファイルの分割
- 8. 、Googleのクラウドストレージ上のGZIPを有効にする(静的ファイル)
- 9. ファイルをHDFS内の小さなファイルに分割します
- 10. Googleクラウドストレージに保存されたファイルを圧縮する
- 11. Dropbox /ドライブからGoogleクラウドストレージにファイルを転送する
- 12. ファイルを分割する
- 13. TIFFファイルを分割する
- 14. CSVファイル分割値すべてnull
- 15. .csvファイル内の行をPythonで分割する
- 16. Google BigQueryとGoogleクラウドストレージはそれらの間でファイルを共有しますか?
- 17. HttpError 400 Googleクラウドストレージ
- 18. marklogic mlcpカスタム変換分割ファイルを複数のファイルに分割
- 19. ffmpegでmp3ファイルをtsファイルに分割
- 20. 分割ファイル
- 21. NLogファイル分割
- 22. Hadoopファイル分割:CompositeInputFormat:内部結合
- 23. csvファイルの分割
- 24. ".txt"ファイルの分割
- 25. XMLファイルの分割
- 26. QFile:ファイルを部分に分割する
- 27. androidアプリケーションからGoogleクラウドストレージにファイルを保存しますか?
- 28. Hive - ファイル間でデータを分割する
- 29. ファイルをJavascriptでチャンクに分割する
- 30. 競合マーカーでファイルを分割する
transaction_dateあたりのレコード数は、およそどのくらいですか?そして、あなたの入力フォーマットのファイルフォーマットは何ですか?また、出力用に同じファイルフォーマットを計画していますか? (改行で区切られたCSVかJSONなのか?) –
データの90%が1つの日付であり、残りの10%は10日間までのものです。改行で区切られたCSVでは、同じ形式の出力を計画しています。 1ファイルを最大11ファイル(今日の90%+過去10日間の10%)に入れるだけです。 –
1つのtransaction_dateに関連付けられたすべてのレコードが* single *ファイルに含まれている必要がありますか、トランザクション日のすべてのデータを簡単に取得できるように整理したいだけでしたか?取引日ごとに異なるディレクトリで除算されますか? –