2012-03-14 3 views
1

私はhadoopの初心者ですが、HDFSでのレプリケーションの仕組みをよりよく理解したいと思っています。HDFSレプリケーション - データが保存されました

私は10ノードシステム(各ノードに1 TB)があり、合計容量は10 TBです。レプリケーションファクタが3の場合、各ファイルに対して1つのオリジナルコピーと3つのレプリカがあります。つまり、本質的に私のストレージのわずか25%が元のデータです。したがって、私の10 TBクラスタは、元の(複製されていない)データのわずか2.5 TBです。

思考の訓練が正しいかどうか教えてください。

答えて

4

あなたの考えは少しです。レプリケーションファクタ3は、3つの合計のデータがあることを意味します。具体的には、ファイルごとに3ブロックのコピーがあるため、ファイルが10ブロックで構成されている場合は、10ノードの合計ブロックが30個、ノードあたり約3ブロックです。

10x1TBクラスターの容量が10TB未満で、レプリケーションファクターが3であり、実際には約3.3TBの機能容量があり、実際の容量は実際の容量よりも小さくなっています処理、一時ファイルの保持など

+0

ありがとうChris!私はこの仕組みの内部構造を理解しようとしています。特定のパターンを探すためにスキャンを実行すると、このスキャンはファイル内の各ブロックの3つのコピーすべて、またはブロックの元の/最初のコピーだけに起こりますか? –

+0

ブロックのコピーが1つだけです。選択されたコピーはランダムです。「マスター」コピーはありません。 –

関連する問題