私のパイプラインは出力データfileをGCSに保存します。 このファイルを圧縮したいと思います。 TextIOは圧縮されたファイルを解凍していますが、 ですが、ファイルを圧縮していないと思います。 出力ファイルをどのように圧縮できますか?Dataflow Java SDKで出力ファイルを圧縮する方法は?
1
A
答えて
1
これは、現在、データフローのためのオープンfeature requestである、しかし仕事はすでにビームで行われています。 Dataflow 2.0がリリースされると(Beamに基づく)、これは正式にサポートされるべきです。つまり、私はFileBasedSinkクラスを拡張し、Beamのこの機能に関するJeff Payneの作業を利用して圧縮GZIPファイルを作成できました。私は私のカルマレベルでのポストあたり2つのリンクに限定だから、これはビームに合併しますPRに
aStringPCollection.apply(Write.to(new GZIPSink("gs://path/sharded-filename", StringUtf8Coder.of()));
1
TextIO
は、圧縮ファイルの読み取りのみをサポートしています。圧縮されたファイルの書き込みはサポートしていません。
https://cloud.google.com/dataflow/model/text-io#reading-from-compressed-text-files
TextIOは現在、圧縮されたファイルへの書き込みをサポートしていません。
さらに詳しい情報:
関連する問題
- 1. Java圧縮サイズの出力byteArray
- 2. ファイルへの書き込み時に出力を圧縮する方法は?
- 3. r:readr:write_csvファイルを圧縮する方法は?
- 4. ファイル名を増やして出力ファイルを圧縮する方法
- 5. RailsとApacheで出力を圧縮する最良の方法
- 6. Azure関数+ Python - 出力圧縮zipファイル
- 7. 圧縮tarファイルの内容をJavaで表示する方法
- 8. JavaでのLZ4ファイル圧縮
- 9. ZipOutPutStreamでファイルを圧縮するJava
- 10. 翡翠での非圧縮出力方法は?
- 11. メインフレームでPKZIPで圧縮されたファイルをJavaで解凍する方法は?
- 12. ファイルを圧縮して解凍する7zのSDKを使用する方法
- 13. Javaで圧縮されたExcelファイルをパスワードで保護する方法は?
- 14. ファイル名を圧縮する良い方法は何ですか?
- 15. 圧縮されたサウンドファイルを非圧縮ファイルに変換する方法
- 16. boost :: iostreamsで圧縮ファイルを抽出
- 17. Rで複数のCSVファイルを圧縮する方法は?
- 18. C#のコードでファイルを圧縮する方法は?
- 19. Hadoopでファイルを自動的に圧縮する方法は?
- 20. UNIXのコマンドラインからファイルをプログラムで圧縮する方法は?
- 21. Windows Mobile 3.5でファイルを圧縮する方法は?
- 22. 複数のファイルをzipファイルで圧縮する方法
- 23. 特定のdiv以外のHTML出力を圧縮する方法は?
- 24. Symfony2でhtml出力を圧縮するには?
- 25. PHPでhtml出力を圧縮するには?
- 26. javaを使用して圧縮でthumbs.dbファイルを作成する方法
- 27. ファイルを読み込んで圧縮し、圧縮された出力をS3にパイプします。
- 28. Java - 異なる圧縮ファイルの解凍
- 29. Hadoopアーカイブツールの出力を圧縮
- 30. .zipをjavaの.gzに圧縮する方法は?
リンク:
は、そして、実際に書き込みを行うには。 https://github.com/apache/beam/commit/b7b68e6fb1aafb6b4160e5dcea022bf6c802e33f – Thang