DirectFileOutputCommitterは、Spark 2.2.0では使用できなくなりました。つまり、S3への書き込みには非常に長い時間がかかります(3時間対2分)。私はこれを行うことにより、火花シェル2にFileOutputCommitterバージョンを設定することにより、この問題を回避することができるよ、同じSpark 2.2.0 FileOutputCommitter
spark-shell --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
は、上記のコマンドがあると思われる火花-SQL
spark-sql --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
では動作しません。バージョン= 2を設定しますが、クエリが実行されたときにはまだバージョン1の動作が表示されます。
二つの質問、
1)どのように私は火花-SQLを使用したFileOutputCommitterバージョン2の挙動を得るのですか?
2)Spark 2.2.0でDirectFileOutputCommitterを使用できる方法はありますか?私はこの問題を打ってきた
Spark 1.6 DirectFileOutputCommitter