Sparkでの分布の歪みを処理する方法

スパーククラスターのデータの分布に問題があります。なぜなら、一緒に処理する必要があるオブジェクトの多くが同じキーを持っているからです。その結果、多くのタスクはすばやく終了しますが、実行プログラムのメモリ境界とクラスタアプリケーションにエラーが発生して停止するまで、タスクの1つが実行され続けます。イメージは履歴サーバー内で何が起こるかを示します。分散コンピューティングにおける最大の課題の一つであるSparkでの分布の歪みを処理する方法

出典

2017-11-24 DiegoJr

：あなたは最大のパフォーマンスを得られるように、すべてのタスクのペイロードを配布します。

つまり、すべてのタスクの負荷を平等にする必要があります。他のタスクに

問題を再度解決し、別の方法で解決するか（提案されているように「セカンダリ」キーを見つける）、大きなタスクでのみ動作する（つまりタスク自体を配布する）ジョブを実行してみる必要があります。

出典

2017-11-24 10:41:42 gsamaras

私は間違いなく、別のタスクでスキューの起源について作業し、パーティション化して作業するための「セカンダリ」キーを見つけようとしています。 – eliasah

Sparkでの分布の歪みを処理する方法

答えて

関連する問題