1

スパーククラスターのデータの分布に問題があります。なぜなら、一緒に処理する必要があるオブジェクトの多くが同じキーを持っているからです。その結果、多くのタスクはすばやく終了しますが、実行プログラムのメモリ境界とクラスタアプリケーションにエラーが発生して停止するまで、タスクの1つが実行され続けます。イメージは履歴サーバー内で何が起こるかを示します。分散コンピューティングにおける最大の課題の一つであるSparkでの分布の歪みを処理する方法

enter image description here

答えて

2

:あなたは最大のパフォーマンスを得られるように、すべてのタスクのペイロードを配布します。

つまり、すべてのタスクの負荷を平等にする必要があります。他のタスクに

問題を再度解決し、別の方法で解決するか(提案されているように「セカンダリ」キーを見つける)、大きなタスクでのみ動作する(つまりタスク自体を配布する)ジョブを実行してみる必要があります。

+1

私は間違いなく、別のタスクでスキューの起源について作業し、パーティション化して作業するための「セカンダリ」キーを見つけようとしています。 – eliasah

関連する問題