3
最近、私はAmazon EMRについて学んできました。私の知る限り、EMRクラスタでは3つのノードを選択できます。Amazon Emr - コアノードがある場合、タスクノードの必要性は何ですか?
- NameNode、Job Tracker、Resource ManagerなどのプライマリHadoopデーモンを実行するMaster。
- データノードとタスクトラッカーデーモンを実行するコア。
- TaskTrackerのみを実行するタスク。
なぜ私はEMRがタスクノードを提供しているのですか? hadoopは、同じノード上にDatanodeデーモンとTasktrackerデーモンを持つべきであると示唆しています。これの背後にあるAmazonのロジックは何ですか? S3のデータをコアノード上のHDFSにストリームすることができ、HDFSからHDFSへのデータの共有以外の処理を行います。この場合、IOオーバーヘッドが増加します。なぜなら、hadoopに関する私の知見では、TaskTrackersはその特定のタスクのデータブロックを持つDataNode上で実行されるため、異なるノードにTaskTrackersを持つ理由は何ですか?