興味深いことに、1ノードあたりのハーフープ軽量テキストデータ処理のために、良いスループットと考えられるものはどれですか?
より具体的には私は質問します: 私はcsvファイルを読んで、それらを解析し、いくつかの列の特定の値の数を数える必要があるとしましょう。値はまれであるため、削減ステップが速いと仮定します。
最新のクアッドコアCPU/4GB RAM/4 SATAディスクマシンのhadoopノードあたりのスループットはどれくらいですか?Hadoop MapReduceのスループットに関する質問
2
A
答えて
1
私は妥当な質問を見つけます。 2.24メガバイト/(sおよびディスク:私は、単純な式があると評価することを、クラスタは市販のハードウェア(ノードあたり2枚のディスク)で3800個のノード上で実行yahoo PB-Sortについて
(SizeOfInput + SizeOfOutput)/RuntimeInSeconds/NumberOfDisks
とスループットのHadoopの印象を得ます)。
IOバインドされたジョブ(DFSIOテストを検索)の場合、約20MB /(sおよびディスク)のクラスタがあります。
IOハードウェアで20 MB /(sとディスク)以上のハドープクラスターが見つかりません。しかし、私は間違っているかもしれません。
+0
ディスクのスループットの2/3がどこに行くのか興味深いです... –
+0
クラスタの後ろの数学についての素晴らしい記事:http://nathanmarz.com/blog/the-mathematics-behind-hadoop-based-systems.html – hoffmaje
関連する問題
- 1. Hadoop MapReduce、Java実装の質問
- 2. のMapReduce質問
- 3. hadoopハイブ質問
- 4. Hadoop MapReduce
- 5. Hadoop MapReduce ClassNotFoundExceptionエラー
- 6. hadoop mapreduce teragen FAIL_CONTAINER_CLEANUP
- 7. Hadoop mapreduceプログラミング
- 8. Hadoop Oozie MapReduceアクションカスタムパーティショナー
- 9. Hadoop MapReduce用クラスタシミュレータ
- 10. のHadoopのMapReduceエラー
- 11. のHadoopのMapReduceは、今私はのHadoopのMapReduceジョブを実行
- 12. Hadoop mapreduceプログラムのjava.lang.ArrayIndexOutOfBoundsException
- 13. hadoop mapreduceで重複する
- 14. Hadoop MapReduceジョブのデータローカリティをオフにする
- 15. Hadoop mapReduceプログラミングエラー例外
- 16. hadoop mapreduce 2種類
- 17. MapReduceの結果を別のMapReduceに渡す方法(javaとhadoop)
- 18. HadoopのMapReduceの機能
- 19. Hadoop MapReduceベースのWeb Javaクローラ
- 20. HBaseからのHadoop mapreduceストリーミング
- 21. Hadoop MapReduceによる画像処理
- 22. Hadoop MapReduce中間出力
- 23. アクセスhbaseテーブルfron hadoop mapreduce
- 24. Hadoop Mapreduce HDFSブロック分割
- 25. Hadoop 1.xのMapReduceについて
- 26. パイプでHadoop MapReduceをチェイン化する(C++)
- 27. Hadoop Java MapReduce JSON with Jackson問題の解析
- 28. タブバーコントローラに関する質問
- 29. プロセスマップに関する質問
- 30. loadNibNamedに関する質問:
これは正確な実装としてはほとんど答えられないと思います。データソースと設定は結果に大きな影響を与えます。 –
私はそれが正確な答えではないことを理解します。しかし、少なくとも規模の大きさは分かっていなければなりません(IMHO)。 RDBMSベースのソリューションでは、TPCH Q1(たとえば)を取ってthroupputを見ることができます。私は理解したいと思います - それは1 MB /秒、10 MB /秒、100または300 MB /秒ですか?ソリューションを計画している時期を知り、顧客が購入する必要があるマシンの数を知ることが重要です。 –
@David Gruzman:「grunty」PCでテストしてみませんか? –