私はSpark 2.0で作業していますが、ジョブは入力データをソートし、その出力をHDFSに保存することから始まります。Spark 2.0のメモリの割合
私はメモリエラーから抜け出していました。解決策は、 "spark.shuffle.memoryFraction"の値を0.2から0.8に増やすことでした。これで問題は解決しました。しかし、ドキュメントでは、これは廃止されたパラメータであることがわかりました。
私が理解するように、それは "spark.memory.fraction"に置き換えられました。 HDFSのソートとストレージを考慮しながらこのパラメータを変更する方法は? documentationから