私は、クライアントのためのHadoopプロジェクトを開発しようとしています。 1日あたり約2TBのデータを受信する予定であるため、調整の一環として、2TBのデータを読み込み、並べ替えとフィルタ操作を実行したいと考えています。Hadoopで2TBのデータを処理することを推奨するマッパーとレデューサーの数はいくつですか?
4つのCPUコアと16GBのRAMを含むt2x.large AWSインスタンスで5つのデータノードを実行するHadoopクラスタをセットアップしました。データ処理をすばやく完了させるには、マッパーとレデューサーの推奨カウントとは何ですか?
これは文字列の問題ではありませんか?私はそれがあなたの操作がどれくらいの時間を取るか、そしてそれが何をする必要があるかによって決まると思います - あなたが2TBのデータを持っているという知識から判断できない限り、私は知っています。 – halfer