2017-03-25 8 views
-1

私は、クライアントのためのHadoopプロジェクトを開発しようとしています。 1日あたり約2TBのデータを受信する予定であるため、調整の一環として、2TBのデータを読み込み、並べ替えとフィルタ操作を実行したいと考えています。Hadoopで2TBのデータを処理することを推奨するマッパーとレデューサーの数はいくつですか?

4つのCPUコアと16GBのRAMを含むt2x.large AWSインスタンスで5つのデータノードを実行するHadoopクラスタをセットアップしました。データ処理をすばやく完了させるには、マッパーとレデューサーの推奨カウントとは何ですか?

+1

これは文字列の問題ではありませんか?私はそれがあなたの操作がどれくらいの時間を取るか、そしてそれが何をする必要があるかによって決まると思います - あなたが2TBのデータを持っているという知識から判断できない限り、私は知っています。 – halfer

答えて

1

は、この上を見てみましょう:それはRAMやCPUを消費し、どのようにあなたのシステムが可能平行であれば

http://crazyadmins.com/tune-hadoop-cluster-to-get-maximum-performance-part-1/

http://crazyadmins.com/tune-hadoop-cluster-to-get-maximum-performance-part-2/

これは、タスクの性質に依存します。

すべてのノードに4つのCPUコアと16GBのRAMが含まれている場合。私は平均して、各ノードで4から6のmap-reduceタスクを提案します。

マップされたタスクが多すぎるとCPUのパフォーマンスが低下し、メモリ不足に関するコンテナの問題が発生する可能性があります。

+0

@Mosan:あなたが共有するリンクは+1 – techprat

関連する問題