HDFSレプリケーション - データが保存されました

私はhadoopの初心者ですが、HDFSでのレプリケーションの仕組みをよりよく理解したいと思っています。HDFSレプリケーション - データが保存されました

私は10ノードシステム（各ノードに1 TB）があり、合計容量は10 TBです。レプリケーションファクタが3の場合、各ファイルに対して1つのオリジナルコピーと3つのレプリカがあります。つまり、本質的に私のストレージのわずか25％が元のデータです。したがって、私の10 TBクラスタは、元の（複製されていない）データのわずか2.5 TBです。

思考の訓練が正しいかどうか教えてください。

出典

2012-03-14 Srini Subramanian

あなたの考えは少しです。レプリケーションファクタ3は、3つの合計のデータがあることを意味します。具体的には、ファイルごとに3ブロックのコピーがあるため、ファイルが10ブロックで構成されている場合は、10ノードの合計ブロックが30個、ノードあたり約3ブロックです。

10x1TBクラスターの容量が10TB未満で、レプリケーションファクターが3であり、実際には約3.3TBの機能容量があり、実際の容量は実際の容量よりも小さくなっています処理、一時ファイルの保持など

出典

2012-03-14 19:13:42

ありがとうChris！私はこの仕組みの内部構造を理解しようとしています。特定のパターンを探すためにスキャンを実行すると、このスキャンはファイル内の各ブロックの3つのコピーすべて、またはブロックの元の/最初のコピーだけに起こりますか？ –

ブロックのコピーが1つだけです。選択されたコピーはランダムです。「マスター」コピーはありません。 –

HDFSレプリケーション - データが保存されました

答えて

関連する問題