2017-01-07 16 views
3

最近、私はAmazon EMRについて学んできました。私の知る限り、EMRクラスタでは3つのノードを選択できます。Amazon Emr - コアノードがある場合、タスクノードの必要性は何ですか?

  1. NameNode、Job Tracker、Resource ManagerなどのプライマリHadoopデーモンを実行するMaster。
  2. データノードとタスクトラッカーデーモンを実行するコア。
  3. TaskTrackerのみを実行するタスク。

なぜ私はEMRがタスクノードを提供しているのですか? hadoopは、同じノード上にDatanodeデーモンとTasktrackerデーモンを持つべきであると示唆しています。これの背後にあるAmazonのロジックは何ですか? S3のデータをコアノード上のHDFSにストリームすることができ、HDFSからHDFSへのデータの共有以外の処理を行います。この場合、IOオーバーヘッドが増加します。なぜなら、hadoopに関する私の知見では、TaskTrackersはその特定のタスクのデータブロックを持つDataNode上で実行されるため、異なるノードにTaskTrackersを持つ理由は何ですか?

答えて

0

スポットインスタンスをタスクノードとして使用すると、1つの使用例があります。安価であれば、EMRクラスターにいくつかの計算能力を追加する価値があります。これは、ほとんどの場合、機密性の低いタスクになります。

関連する問題