4つのDataNodeを持つHadoopクラスタがあります。私は、データ複製とデータ配布という2つの問題の間で混乱しています。HDFSレプリケーションとデータ配信
私は2GBのファイルがあり、レプリケーションファクタは2であると仮定します。&ブロックサイズは128 MBです。このファイルをhdfsに入れると、128 MBブロックごとに2つのコピーが作成され、datanode3とdatanode4に配置されていることがわかります。しかし、datanode2 & datanode1は使用されません。データは複製要因のために複製されますが、datanode1とdatanode2にいくつかのデータブロックがあることが予想されます。何か間違えている?
私は20のDataNodesと複製係数が2であるとしましょう。HDFSにファイル(2 GB)を置くと、再び128 MBの2つのコピーが見込まれますが、これらの128 MBブロックは20のDataNodeに分散されています。