私は3台のサーバーを持っており、そのサーバー上にSpark Standalone ClusterまたはSpark on Yarn Clusterを展開したいと考えています。 大きなデータクラスタに物理リソースを割り当てる方法についていくつか質問があります。たとえば、Spark Master ProcessとSpark Worker Processを同じノードに配置できるかどうかを知りたいと思っています。どうして?大きなデータクラスタに物理リソースを割り当てる方法は?
Serverの詳細:
CPU Cores: 24
Memory: 128GB
私はあなたの助けを必要としています。ありがとう。
ありがとうございます。私は私の質問を編集しました。あなたによると。スパークマスタープロセスが汚染された場合、私はそれをしません。 –
@TimothyKoo割り当てについては、複雑なケースです。最近私はそれについて非常に良いプレゼンテーションを見て、それにリンクし、私がそれを見つけるときにあなたに電話します。マスターノードは非常に非常に悪い状況でしか感染されませんが、どれだけの回復力が必要なのかによって異なります - 時にはクラスタ全体が耐えられることもあります(例えばリアルタイムのジョブなど) –