私はsparkを使用していますが、hdfs(zip、gzip、7zip、tar、bz2、tar.gzなど)では圧縮ファイルの種類が異なります。誰でも私に解凍のための最善の方法を教えてもらえますか?いくつかの圧縮では、私はCompressionCodecを使うことができました。しかし、それはすべての圧縮形式をサポートしていません.zipファイルについては、私はいくつかの検索を行い、ZipFileInputFormatを使用できることを発見しました。しかし、私はこれのための瓶を見つけることができませんでした。sparkでhdfsからファイルを解凍する
0
A
答えて
0
いくつかの圧縮形式(tar.gzとzipには当てはまり、他の圧縮形式についてはテストしていないことがわかっています)では、Dataframe APIを直接使用することができます。
val df = spark.read.json("compressed-json.tar.gz")
+0
こんにちは@Benはtarファイルでは動作しますが、zipファイルでは動作しません。私はスカラ1.6とスカラ2.10.2を使用しています –
関連する問題
- 1. HDFSのファイルを解凍する
- 2. Hadoop HDFSで.Snappyファイルを解凍する方法は?
- 3. S3からHDFSにコピーして解凍する
- 4. hdfsファイルをsparkコンテキストにロード
- 5. Scala/SparkでHDFSからテキストファイルを読む
- 6. PDB trajctoryから各ファイルを解凍
- 7. ファイルを解凍してftpからダウンロード
- 8. 大きなxmlファイルを1つのHDFSディレクトリに解凍する方法
- 9. log.gzファイルを解凍する
- 10. tar.gzファイルを解凍する
- 11. HDFSディレクトリからファイルを読み込み、PythonでSparkでRDDを作成する
- 12. jarファイルからzipファイルを解凍する方法
- 13. PHPでファイルを解凍しますか?
- 14. Powershellで解凍(解凍)せずに* .zipファイル内のファイルを置換する
- 15. 解凍gzipファイル
- 16. 解凍ファイル
- 17. 解凍ファイル
- 18. リモートzipファイルを抽出し、それをjavaのhdfsに解凍します
- 19. AndroidでRarファイルを解凍する
- 20. ZIpFileでファイルを解凍する
- 21. Cで4GBのファイルを解凍する#
- 22. JavaScriptでファイルを解凍する
- 23. 私は(解凍)javascripteでzipファイルのバイナリデータを解凍したい
- 24. sparkのhdfsからのorc/parquetファイルの読み込み
- 25. バッチで.gzファイルの解凍
- 26. Matlabの(解凍ファイル)
- 27. cordova wwwフォルダからファイルを解凍する
- 28. WebClientからgzipレスポンスを解凍する
- 29. タイプバンドルからテンプレートテンプレートパラメータを解凍する
- 30. yoctoビルドからlibを解凍する
あなたはJavaで独自の入力形式とレコードリーダーを書くとスカラ座にインポートすることができます。 https://gist.github.com/jteso/1868049 –
[zip、7zip、tarは*アーカイブ*であり、必ずしも「圧縮」されているわけではありません。](http://superuser.com/questions/173756/which-is-more- BZip2とGzipの違いと同じ(効率的なtar-or-zip-compression-what-the-the-difference-between)(gzとgzipは同じです... tar.gzは圧縮されたtarアーカイブです)。とにかく、BZip2はHDFS内の最良のオプションです。http://comphadoop.weebly.com/index.html –