1
スパーククラスターのデータの分布に問題があります。なぜなら、一緒に処理する必要があるオブジェクトの多くが同じキーを持っているからです。その結果、多くのタスクはすばやく終了しますが、実行プログラムのメモリ境界とクラスタアプリケーションにエラーが発生して停止するまで、タスクの1つが実行され続けます。イメージは履歴サーバー内で何が起こるかを示します。分散コンピューティングにおける最大の課題の一つであるSparkでの分布の歪みを処理する方法
私は間違いなく、別のタスクでスキューの起源について作業し、パーティション化して作業するための「セカンダリ」キーを見つけようとしています。 – eliasah