私は90%の時間で正常に動作するSparkサブミットジョブ(PySpark)を持っていますが、特定のホストでは10%停止します。基本的にタスクは他のホストで完了するまでに数秒かかることがありますが、SparkのUIから特定できるホスト上で停止することがあります。そのような場合、私はプロセスを終了させて再実行します。私はこの問題を軽減するために私の選択肢が何であるか疑問に思います。 私のインフラストラクチャは、Amazon AWS上で動作するEC2インスタンス上のスタンドアロンのSpark 2.1クラスタです。私は投機的な実行を考えましたが、私のプロセスはs3に書き込んでいます。私は、s3にとどまるプロセスの投機的実行を指定することは悪い考えです。どんな提案も大歓迎です。単一のワーカーノードはジョブを停止します
0
A
答えて
1
データが歪んだ場合、つまりGCとOOMが多く発生する可能性のある非常に大量のデータを含むパーティションがある場合、90%のストールは珍しいことではありません。
この場合、データを再分割する。 RangePartitionerを介して解決策になります。
関連する問題
- 1. Quart Scheduler Startは一時停止ジョブを実行しますか?
- 2. Scrapyd一時停止/続行ジョブ
- 3. 一時停止ボタンはAVAudioPlayerを一時停止するのではなく停止しています。
- 4. JenkinsとEC2ワーカーノードの使用(停止、終了しない)
- 5. 簡単スライダー1.7(ホバーを一時停止)
- 6. dbms_schedulerジョブを停止できません
- 7. 遅延ジョブはしばらくして停止します
- 8. 一時停止/一時停止後に一時停止したシーン(停止していない状態)でSKActionを実行しないようにするには、一時停止/一時停止後にノードのテクスチャは変更されません。
- 9. Quartz.Netでジョブを一時停止/再開する方法
- 10. ローカルマシンのQuartzジョブを停止する
- 11. YouTubeは一時停止、再生&停止しません。
- 12. setintertervalは一度停止します
- 13. 実行中のジョブを無効にすると、ジョブが停止しますか?
- 14. SQLインスタンスで単一のデータベースを停止する方法は?
- 15. 機能でオーディオを一時停止または一時停止する
- 16. pthreadを一時停止しますか?
- 17. matplotlibカスタムアニメーションループを一時停止します
- 18. モーショントラッキングを一時停止します
- 19. Cronのジョブが動作を停止しました
- 20. 遅延ジョブがWebインターフェイスの動作を停止しました
- 21. ドッカーコンテナを停止して削除する単一コマンド
- 22. MediaPlayerインスタンス:停止は一時停止のように動作します
- 23. Rails - 遅延ジョブが実行を停止します
- 24. Android MediaPlayer.stop()は停止する代わりに一時停止します
- 25. バックグラウンドでのLinuxプロセス - ジョブで "停止"?
- 26. JavaScriptサウンド再生/停止/一時停止
- 27. スクロールでHTML5ビデオを一時停止または停止できますか?
- 28. 停止サービスは停止しません
- 29. "javax.swing.timer"を停止してもアニメーションが一時停止しない
- 30. トグルボタンオーディオリスナーの一時停止/一時停止解除
私の答えはあなたの仕事の詳細を知らなくても推測に過ぎません。 あなたの問題は具体的には説明されていません.Spark UIのスクリーンショットを含めることができます。正確な意味を示し、この停止しているホストを特定する方法を示します。どのような仕事が失速しているのか。 – lhaferkamp