2011-01-31 12 views
2

興味深いことに、1ノードあたりのハーフープ軽量テキストデータ処理のために、良いスループットと考えられるものはどれですか?
より具体的には私は質問します: 私はcsvファイルを読んで、それらを解析し、いくつかの列の特定の値の数を数える必要があるとしましょう。値はまれであるため、削減ステップが速いと仮定します。
最新のクアッドコアCPU/4GB RAM/4 SATAディスクマシンのhadoopノードあたりのスループットはどれくらいですか?Hadoop MapReduceのスループットに関する質問

+0

これは正確な実装としてはほとんど答えられないと思います。データソースと設定は結果に大きな影響を与えます。 –

+1

私はそれが正確な答えではないことを理解します。しかし、少なくとも規模の大きさは分かっていなければなりません(IMHO)。 RDBMSベースのソリューションでは、TPCH Q1(たとえば)を取ってthroupputを見ることができます。私は理解したいと思います - それは1 MB /秒、10 MB /秒、100または300 MB /秒ですか?ソリューションを計画している時期を知り、顧客が購入する必要があるマシンの数を知ることが重要です。 –

+0

@David Gruzman:「grunty」PCでテストしてみませんか? –

答えて

1

私は妥当な質問を見つけます。 2.24メガバイト/(sおよびディスク:私は、単純な式があると評価することを、クラスタは市販のハードウェア(ノードあたり2枚のディスク)で3800個のノード上で実行yahoo PB-Sortについて

(SizeOfInput + SizeOfOutput)/RuntimeInSeconds/NumberOfDisks 

とスループットのHadoopの印象を得ます)。

IOバインドされたジョブ(DFSIOテストを検索)の場合、約20MB /(sおよびディスク)のクラスタがあります。

IOハードウェアで20 MB /(sとディスク)以上のハドープクラスターが見つかりません。しかし、私は間違っているかもしれません。

+0

ディスクのスループットの2/3がどこに行くのか興味深いです... –

+0

クラスタの後ろの数学についての素晴らしい記事:http://nathanmarz.com/blog/the-mathematics-behind-hadoop-based-systems.html – hoffmaje

関連する問題