2012-02-13 8 views
1

擬似分散アーキテクチャを使用する1台のマシンのみを使用してHadoopのスケーラビリティパフォーマンスを見積もり/シミュレートするためのツール、パッケージ、または手法がありますか?そのようなシステムは、シミュレーションにおいて互いに干渉しないジョブ(例えば、ブロックされたI/O)に基づいて正確な見積もりを行う必要がある。擬似分散ノードでのHadoopスケーラビリティパフォーマンスの見積もりは?

私の考えでは、どのように動作するかは、すべてのマップ/リダクションジョブを順番に実行し、システムがどれほどうまくスケーリングできるかを推定することです(たとえば、実行時間はそれによってボトルネックになります)。

さらに、複数のマップ/リダクションジョブが連鎖して出力を形成しています。

+0

スケーラビリティと単一のマシン。エラーを見つけます。 –

+0

あなたがタイトルを読んだだけなのか、私が十分に明示していないのかわからない場合は、実際には速く動くとは思っていません(ちょっとばかげて聞こえます)。シミュレーションまたは推定を介してサブ問題に変換する。 – Gate

答えて

0

あなたの仕事の性質によって大きく異なると思います。
1.ジョブには、重い入力書式設定とマッパー処理があり、最小限のデータは縮小機に渡されます。この場合、疑似分散クラスタは実際のクラスタパフォーマンス(スロットあたり)を現実に反映し、5ノードクラスタは約x5の性能を持つと想定できます。私は、仕事の時間が仕事の始動時間の少なくとも5〜10倍かかるとする十分なデータを入れることを提案します。処理中にデータの局所性を保証するのに十分な分割数がある場合は、この見積もりが優れています。
比較的小さなファイルがたくさんある場合は、テストに十分な量を置いて、タスクごとのオーバーヘッドをシミュレートします。 2. Hadoopの分散ソート機能(シャッフル)を大きく中継します。 1つのノードと実際のクラスタでのパフォーマンスは大きく異なる可能性があり、要因を見積もるのは難しいです。
マッパーのスループットと、ある程度は、スロットあたりのMB /秒という見地から、あなたは上から推定できます。実際のクラスタはおそらくスロットあたりのパフォーマンスが良くないでしょう。

関連する問題