1
私はhadoopの初心者ですが、HDFSでのレプリケーションの仕組みをよりよく理解したいと思っています。HDFSレプリケーション - データが保存されました
私は10ノードシステム(各ノードに1 TB)があり、合計容量は10 TBです。レプリケーションファクタが3の場合、各ファイルに対して1つのオリジナルコピーと3つのレプリカがあります。つまり、本質的に私のストレージのわずか25%が元のデータです。したがって、私の10 TBクラスタは、元の(複製されていない)データのわずか2.5 TBです。
思考の訓練が正しいかどうか教えてください。
ありがとうChris!私はこの仕組みの内部構造を理解しようとしています。特定のパターンを探すためにスキャンを実行すると、このスキャンはファイル内の各ブロックの3つのコピーすべて、またはブロックの元の/最初のコピーだけに起こりますか? –
ブロックのコピーが1つだけです。選択されたコピーはランダムです。「マスター」コピーはありません。 –