と火花で圧縮されたファイルを読み込む次のコードを使用して、私はデータフレーム/ RDDで火花/ Scalaでは.gzというファイルの内容を読み取るしようとしていますスカラ座
val conf = new SparkConf()
val sc = new SparkContext(conf)
val data = sc.wholeTextFiles("path to gz file")
data.collect().foreach(println);
が.gzファイルが28メガバイトで、ときに私このコマンドを使用してspark submitを実行しますか?
spark-submit --class sample--master local[*] target\spark.jar
これはコンソールにJavaヒープスペースの問題を示します。
これは.gzファイルを読み込む最良の方法ですか、はいの場合はどのようにしてJavaヒープエラーの問題を解決できますか。
おかげ
あなたのソリューションは[複数の圧縮ファイルを読む]にあります(https://stackoverflow.com/questions/38635905/reading-in-multiple-files-compressed-in-tar-gz-archive-into-spark) –
実際に元の答えはhttps://stackoverflow.com/questions/36604145/read-whole-text-files-from-a-compression-in-spark – eliasah
[Sparkの圧縮から全文ファイルを読む]の可能な複製https://stackoverflow.com/questions/36604145/read-whole-text-files-from-a-compression-in-spark) – mrsrinivas