2016-09-06 10 views
2

EC2インスタンスが重複している以下のクラスタがあります。例:糸クラスタとMemcachedクラスタが同じインスタンスを使用しています2、3、4;さらに、各インスタンスに異なるRAM、CPU、コアサイズがある場合、はこの潜在的なコースの問題になりますか?またはクラスターはそれ自身でバランスを取ることができますか?ありがとう!EC2インスタンスが重複しているクラスタ

スパーククラスタ:EC2インスタンス2、3、5
糸クラスタ:EC2インスタンス1、2、3、4、5
Memcachedのデータベースクラスタ:EC2インスタンス2、3、4、6

instance 1: 512GB RAM, 2 vCPU, 2 cores 
instance 2: 1TB RAM, 8 vCPU, 4 cores  
instance 3: 2TB RAM, 6 vCPU, 6 cores  
instance 4: 256GB RAM, 2 vCPU, 2 cores 
instance 5: 2TB RAM, 16 vCPU, 4 cores  
instance 6: 4TB RAM, 4 vCPU, 8 cores 

答えて

1

クラスタはこの共有を認識していません。過度のコミットメントを避けるために、ホストごとのリソース割り当てを構成する必要があります。

すべてのノードのリソース割り当てがすべてのRAM /コア/ディスク以上のものを使用できる場合、あなたは危険にさらされています(ほとんどの場合、タスクを開始する危険があります。たとえば、3のように、各サービスに1Tを割り当てることはできません。

同様に、インスタンス3では、各サービスに1Tを割り当てることはできません。

スパークは糸で走ることができるので、これを2つのクラスターに減らすオプションがあります。

+0

ありがとう@patrungel、最後の文章についてさらに詳しく知りたいですか? SparkクラスタとYarnクラスタが同じクラスタマシンを共有できることを意味しますか? 100%オーバーラップのような? – faustineinsun

+1

Sparkは、Yarnアプリケーションとして実行できます(つまり、Yarnをそのジョブのリソースマネージャーとして使用できます)。オーバーラップは言いませんが、hadoop(マップされた)ANDスパークジョブの両方に_same_ clusterを使用します。この場合、mapredとsparkのジョブは共通のスケジューリングの対象となるため、無関係の2つのクラスタを処理する必要はありません。 これは非常に一般的な設定です。http://spark.apache.org/docs/latest/running-on-yarn.htmlを参照してください。 既存のYarnクラスタにスパークを追加することは、むしろ簡単な作業です。 – patrungel

関連する問題