擬似分散ノードでのHadoopスケーラビリティパフォーマンスの見積もりは？

擬似分散アーキテクチャを使用する1台のマシンのみを使用してHadoopのスケーラビリティパフォーマンスを見積もり/シミュレートするためのツール、パッケージ、または手法がありますか？そのようなシステムは、シミュレーションにおいて互いに干渉しないジョブ（例えば、ブロックされたI/O）に基づいて正確な見積もりを行う必要がある。擬似分散ノードでのHadoopスケーラビリティパフォーマンスの見積もりは？

私の考えでは、どのように動作するかは、すべてのマップ/リダクションジョブを順番に実行し、システムがどれほどうまくスケーリングできるかを推定することです（たとえば、実行時間はそれによってボトルネックになります）。

さらに、複数のマップ/リダクションジョブが連鎖して出力を形成しています。

出典

2012-02-13 Gate

スケーラビリティと単一のマシン。エラーを見つけます。 –

あなたがタイトルを読んだだけなのか、私が十分に明示していないのかわからない場合は、実際には速く動くとは思っていません（ちょっとばかげて聞こえます）。シミュレーションまたは推定を介してサブ問題に変換する。 – Gate

あなたの仕事の性質によって大きく異なると思います。
1.ジョブには、重い入力書式設定とマッパー処理があり、最小限のデータは縮小機に渡されます。この場合、疑似分散クラスタは実際のクラスタパフォーマンス（スロットあたり）を現実に反映し、5ノードクラスタは約x5の性能を持つと想定できます。私は、仕事の時間が仕事の始動時間の少なくとも5〜10倍かかるとする十分なデータを入れることを提案します。処理中にデータの局所性を保証するのに十分な分割数がある場合は、この見積もりが優れています。
比較的小さなファイルがたくさんある場合は、テストに十分な量を置いて、タスクごとのオーバーヘッドをシミュレートします。 2. Hadoopの分散ソート機能（シャッフル）を大きく中継します。 1つのノードと実際のクラスタでのパフォーマンスは大きく異なる可能性があり、要因を見積もるのは難しいです。
マッパーのスループットと、ある程度は、スロットあたりのMB /秒という見地から、あなたは上から推定できます。実際のクラスタはおそらくスロットあたりのパフォーマンスが良くないでしょう。

出典

2012-02-13 23:33:08

擬似分散ノードでのHadoopスケーラビリティパフォーマンスの見積もりは？

答えて

関連する問題