HDFSに約10TBの大きなファイルを保存する必要があります。私が理解する必要があるのは、HDFSがこのファイルをどのように保存するかです。クラスタのレプリケーションファクタは3で、各ノードに10TB以上のディスク容量を持つ10ノードクラスタがあります。つまり、合計クラスタ容量は100TBを超えています。大きなファイルをhadoop HDFSに保存していますか?
ここで、HDFSは3つのノードをランダムに選択し、これらの3つのノードにファイルを格納します。だから、これはそれが聞こえるほど簡単です。確認してください
また、HDFSはファイルを分割します(それぞれ1TBの分割数で10まで)し、ランダムに選択された3つのノードに分割のそれぞれを格納します。したがって、可能な分割が可能であり、そうであればそれが有効にされる構成側面です。 HDFSがバイナリファイルまたはテキストファイルを分割する必要がある場合、どのように分割されますか?単純にバイト単位。
使用するフォーマットが分割可能でない限り、これは悪い考えです。 HDFSの観点からは重要ではありませんが、MapReduceの場合、分割可能でない場合、1つのマッパーだけがそのファイルを処理できます。 –