現在、DatapipelineのHadoopActivityタスクを使用してEMRクラスタで並列スパークジョブを実行しています。デフォルトでは、EMRクラスタの新しいバージョンでは、スパーク動的割り当てがtrueに設定され、負荷に基づいて必要なエグゼキュータの数を増減します。したがって、スパーク送信と一緒に他のプロパティを設定する必要がありますか?コア数、エグゼキュータメモリなど、またはEMRクラスタで動的に処理するのに最適ですか?Spark Submit EMRで並列ジョブを実行しているときのコンフィグレーション
1
A
答えて
0
これは、アプリケーションの動作方法によって異なります。私はここでどのように働いているかの良い例をあなたに伝えます。データサイエンティストにとっては、彼らはデフォルト設定を使用しています。Jupyterを使ってモデルを実行するので、かなりうまく機能します。私たちがセットアップに役立つことができるのは、conf spark.dynamicAllocation.minExecutors
です。これにより、少なくとも2人または1人の作業者を設定することができます。エグゼキュータなしでいないこと。それがデータサイエンティストと何をするのか。
しかし、EMRには、選択したマシンの種類ごとに1つの特定のタイプの構成があります。一般的に、最も一般的なアクティビティに最適化されています。しかし、変更する方が良い歪んだデータに対して、より多くのメモリと少ないコアが必要な場合は、要求に応じて変更する必要があることがあります。
関連する問題
- 1. クラスタモードでspark kinesisストリーミングアプリを実行しているときのエラー(Amazon EMR)
- 2. EMRでスパークジョブを実行しているときにIllegalAccessError
- 3. AWS EMRでJava Sparkプログラムを実行しています
- 4. HDFSで__spark_config__.zipのFileNotFoundExceptionを使用して、EMR 5.5.0で簡単なspark-submitジョブが失敗する
- 5. コンフィギュレーション・ファイルを使用したspark submitジョブ
- 6. 3つの並列Sparkストリーミングジョブの実行
- 7. GNU並列Javaジョブを実行する
- 8. S3のファイルからAmazon EMR/Sparkを使用して並列クラスタリングを実行する方法
- 9. spark-submitジョブのパーティション数を増やす
- 10. EMRでPythonスパークを実行
- 11. DataProcでSparkを実行しているときに新しいジョブをキューに入れる方法
- 12. spark-submitを使用してSparkジョブのキューを選択する方法は?
- 13. 糸 - 複数のジョブのspark-submit
- 14. 糸でSparkアプリケーションを実行しているときの問題
- 15. sparkで複数の集約ジョブを1つのデータフレームで並列に実行できますか?
- 16. アマゾンemrで実行しているときにスパークマスターとして指定する内容
- 17. Spark Job Server経由でジョブを実行しています
- 18. EMRクラスターでapache sparkジョブのlog4jをカスタマイズする
- 19. spark submitジョブをクラスター展開モードで実行しても失敗するが、クライアントに渡される
- 20. Amazon EMRでsparkジョブがNullPointerExceptionを返します
- 21. spark-submitとpysparkでluigiタスクを実行するには
- 22. Jenkinsでジョブを並行して実行する方法
- 23. Rscriptとspark-submitを使ってRスクリプトを実行
- 24. ScalaとSparkでの複数の関数の並列実行
- 25. SparkLauncherハイブとしてユーザーと一緒に糸クライアントでspark-submitを実行
- 26. カスタムEMRでAmazon EMRを実行していますか?
- 27. spark-submitを使用して送信するとApache Beamジョブがハングアップする
- 28. spark-submitを使用してSparkジョブにパラメータ/プロパティを渡す方法
- 29. Flink REST APIを使用してAWS EMR上でFlinkジョブを実行する
- 30. emrでoozieを使用してspark submitを実行しようとすると、以下のエラーが表示されます