現在、4つのスパークノードと1つのsolrノードでクラスタを実行しています。私はクラスターを素早く20ノードまで拡張したいと思っています。その後、MesosやYarnを使うのはどのクラスタ・サイズで意味があるのか分かりません。 100個以下のノードがあるときに糸やメソスを追加するのは意味がありますか?MesosまたはYarnをいくつ使う必要がありますか?
おかげ
現在、4つのスパークノードと1つのsolrノードでクラスタを実行しています。私はクラスターを素早く20ノードまで拡張したいと思っています。その後、MesosやYarnを使うのはどのクラスタ・サイズで意味があるのか分かりません。 100個以下のノードがあるときに糸やメソスを追加するのは意味がありますか?MesosまたはYarnをいくつ使う必要がありますか?
おかげ
MesosとYARNはいかなる問題なく数千のノードを点で最大拡張することができます。
ワークロードにsparkまたはhadoopのみに関連するジョブ/タスクがある場合、YARNがより良い選択肢になります。それ以外の場合は、Dockerコンテナなどを使用してメゾスを実行する必要がありますより良い選択となるでしょう。
メゾスには他にも多くのメリットとデメリットがありますので、hereと比較してください。
Sparkを実行している場合、Sparkスタンドアロンクラスタは他のクラスタマネージャとほとんど同じ機能を提供します。
他のアプリケーションとともにSparkを実行したい場合や、より豊富なリソーススケジューリング機能(キューなど)を使用する場合は、YARNとMesosの両方がこれらの機能を提供します。これらのうち、YARNは多くのHadoopディストリビューションにプリインストールされている可能性があります。
ノードが100個未満で、スパークと並行して他のアプリケーションを実行しない場合、スタンドアロンクラスタをスパークすることは、過度の攻撃ではないため、より良い選択です。
これはまた、Fairスケジューラのようなキューやスケジューラのような使いたい機能に依存し、YARN/Mesosは意味をなさないでしょう。 (これらの機能を使用するかどうかは、スパーククラスタ、作業負荷、クラスタの使用状況によって異なります)
form /をcassandraに読み書きする必要がある場合はどうなりますか? – peter
cassandraとのやりとりはうまくいきますが、上記のクラスタと違いはありません。 –
ありがとうございます。もし私が16のスパークノードを持っていて、それもcassandraと同じクラスタにあり、そしてcassandraに読み書きする必要があります。私は現在、pythonでスタンドアロンのsparkを使用しています。私はsparkアプリのパフォーマンスを向上させたいと思います。しかし、私は本当に糸が必要ですか?そして、クラスタモードのメリットは何ですか? – peter