2017-07-07 3 views
2

私はsparkのパフォーマンスを調整する必要があるプロジェクトに取り組んでいます。私はスパークの性能を調整するのに役立つ4つの最も重要なパラメータを見つけました。それらは次の通りです:Apache Sparkのパフォーマンス調整

  1. spark.memory.fraction
  2. spark.memory.offHeap.size
  3. spark.storage.memoryFraction
  4. 私が欲しかったspark.shuffle.memoryFraction

私が正しい方向に進むかどうかを知るために?私が他のいくつかのパラメータも忘れてしまったのなら、 私に知らせてください。

ありがとうございます。

答えて

0

はい、あなたは正しい道にいるようです。実際には、スパークのパフォーマンスを微調整するために使用できる設定パラメータが多くあります。あなたは、1)エグゼキュータ、2)コア、3)メモリ、および4)データパーティションの微調整のために、4つのリソースをバランスさせる必要があると述べました。そのすべてが違うやり方で同じことを言っている。

あなたは、私は答えは役に立つことを願うTuning SparkCloudera tuning SparkIBM tuning Spark

でより多くの情報を見つけることができます。

1

これは正直に答えるのはかなり広いです。パフォーマンスを最適化するための正しい方法は、主に、Tuning Sparkに関するセクションの公式ドキュメントに記載されています。並列処理の

  • データシリアライゼーション
  • メモリー・チューニング
  • レベルの大規模な変数の番組削減タスクの
  • メモリ使用量
  • 一般的に言って、要因の多くはスパークジョブを最適化することがあります

  • データ地域

主に、データのシリアライゼーション、メモリのチューニング、および精度/近似技術のトレードオフを中心に集中管理されています。

EDIT:zero323 @の

提供:

私はすべてが、問題に言及した一つの選択肢は、唯一のレガシーモードでは非推奨と使用されていることを、指摘したいです。

+1

私が指摘したいのは、質問に記載されている1つのオプションを廃止し、レガシーモードでのみ使用することです。 – zero323

+0

ありがとうございます@ zero323! – eliasah

関連する問題