1

現在、DatapipelineのHadoopActivityタスクを使用してEMRクラスタで並列スパークジョブを実行しています。デフォルトでは、EMRクラスタの新しいバージョンでは、スパーク動的割り当てがtrueに設定され、負荷に基づいて必要なエグゼキュータの数を増減します。したがって、スパーク送信と一緒に他のプロパティを設定する必要がありますか?コア数、エグゼキュータメモリなど、またはEMRクラスタで動的に処理するのに最適ですか?Spark Submit EMRで並列ジョブを実行しているときのコンフィグレーション

答えて

0

これは、アプリケーションの動作方法によって異なります。私はここでどのように働いているかの良い例をあなたに伝えます。データサイエンティストにとっては、彼らはデフォルト設定を使用しています。Jupyterを使ってモデルを実行するので、かなりうまく機能します。私たちがセットアップに役立つことができるのは、conf spark.dynamicAllocation.minExecutorsです。これにより、少なくとも2人または1人の作業者を設定することができます。エグゼキュータなしでいないこと。それがデータサイエンティストと何をするのか。

しかし、EMRには、選択したマシンの種類ごとに1つの特定のタイプの構成があります。一般的に、最も一般的なアクティビティに最適化されています。しかし、変更する方が良い歪んだデータに対して、より多くのメモリと少ないコアが必要な場合は、要求に応じて変更する必要があることがあります。

関連する問題