Hadoop MapReduceのスループットに関する質問

興味深いことに、1ノードあたりのハーフープ軽量テキストデータ処理のために、良いスループットと考えられるものはどれですか？
より具体的には私は質問します：私はcsvファイルを読んで、それらを解析し、いくつかの列の特定の値の数を数える必要があるとしましょう。値はまれであるため、削減ステップが速いと仮定します。
最新のクアッドコアCPU/4GB RAM/4 SATAディスクマシンのhadoopノードあたりのスループットはどれくらいですか？Hadoop MapReduceのスループットに関する質問

出典

2011-01-31 David Gruzman

これは正確な実装としてはほとんど答えられないと思います。データソースと設定は結果に大きな影響を与えます。 –

私はそれが正確な答えではないことを理解します。しかし、少なくとも規模の大きさは分かっていなければなりません（IMHO）。 RDBMSベースのソリューションでは、TPCH Q1（たとえば）を取ってthroupputを見ることができます。私は理解したいと思います - それは1 MB /秒、10 MB /秒、100または300 MB /秒ですか？ソリューションを計画している時期を知り、顧客が購入する必要があるマシンの数を知ることが重要です。 –

@David Gruzman：「grunty」PCでテストしてみませんか？ –

私は妥当な質問を見つけます。 2.24メガバイト/（sおよびディスク：私は、単純な式があると評価することを、クラスタは市販のハードウェア（ノードあたり2枚のディスク）で3800個のノード上で実行yahoo PB-Sortについて

(SizeOfInput + SizeOfOutput)/RuntimeInSeconds/NumberOfDisks

とスループットのHadoopの印象を得ます）。

IOバインドされたジョブ（DFSIOテストを検索）の場合、約20MB /（sおよびディスク）のクラスタがあります。

IOハードウェアで20 MB /（sとディスク）以上のハドープクラスターが見つかりません。しかし、私は間違っているかもしれません。

出典

2012-06-11 15:52:52 hoffmaje

ディスクのスループットの2/3がどこに行くのか興味深いです... –

クラスタの後ろの数学についての素晴らしい記事：http://nathanmarz.com/blog/the-mathematics-behind-hadoop-based-systems.html – hoffmaje

Hadoop MapReduceのスループットに関する質問

答えて

関連する問題