2017-05-02 2 views
0

Sparkアプリケーションを4ノードでテストするためのマルチノードクラスタをセットアップしました。 各ノードには250GBのRAMと48コアがあります。 1つのノードでマスターを実行し、3つをスレーブとして実行します。Apacheのスパークアプリケーションの実行パラメータを設定するには

そして、私たちはスカラを使ってスパークアプリケーションを開発しました。 spark-submitオプションを使用してジョブを実行します。 ここでは、私たちが打ち負かされている点について説明し、進めるためにはより明確な説明が必要です。

クエリ1: スパークジョブを実行するのに最適なオプションはどれですか。 a)マスターとしてスパーク b)マスターとして と違い。

クエリ2:任意のスパークジョブを実行中 我々は執行、コアの無い、エグゼキュータメモリなどの数のようなオプションを提供することができますが、パフォーマンス向上のために、これらのパラメータの最適値がどうなるかアドバイスしてもらえ

私の場合。

それはスパークで始まる誰にとっても参考になるので、すべてのヘルプは非常に高く評価されるだろう:)

感謝。!!

+0

について最適な値、その主観的なものをご覧ください。この2つの記事を読んでください - https://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/ – Pushkr

答えて

0

Query1:YARNは、優れたリソースマネージャであり、Spark Masterよりも多くの機能をサポートしています。もっと見るには Apache Spark Cluster Managers

Query2:ジョブの初期化時にのみリソースを割り当てることができます。使用可能なコマンドラインフラグがあります。また、spark-submitでコマンドラインフラグを渡したくない場合は、コード内にspark設定を作成するときにそれらを設定することができます。 あなたが spark-submit --help

フォアより多くの情報訪問にSpark Configuration

選出リソースを使用して使用可能なフラグを見ることができすぎなかっ処理したいデータのサイズ、問題の複雑さに依存します。

5 mistakes to avoid while writng spark applications

+0

親愛なる、あなたの返信をありがとう。クエリ2では、コアとメモリのパラメータを設定するオプションがあることがわかりました。しかし、パフォーマンスの向上のために私の場合に最適な価値があると私が助けてくれれば幸いです。 3TBのデータを処理しようとしています。 – user3257510

+0

したがって、1TBのRAMで3TBのデータを処理したいとします。そのような大きなデータセットと限られたリソースがある場合、どのようにパフォーマンスを期待できますか。 –

関連する問題