HadoopのHDFSについて読んだところ、hadoopは小さなサイズのファイルが多数ではなく、より小さなサイズのファイルを処理するように設計されていることがわかりました。Hadoopに関するBigとSmallファイルのメタデータ
小さいサイズのファイルの数が多い場合、Namenode's
のメモリがすぐに奪われるという理由があります。私はこの議論を理解するのが難しいです。
1000年小さなファイルと128メガバイト(HDFSブロックの同じブロックサイズ)の各々がサイズ:
次のシナリオを検討してください。
これは、この情報を保持しているNamenodeのメモリに1000個のエントリがあることを意味します。 128メガバイト×1000ブロックサイズを持っている、
1つのBIGのファイル:
は今、次のシナリオを検討してください。
このBIGシングルファイルのNamenodeには1000個のエントリがありませんか?
この結論では、どちらの場合も、ファイルのブロック情報に関してネームノードのメモリ内のエントリの数が同じになることは間違っていますか?もしそうなら、hadoopは小規模なファイルの数よりも大きなサイズのファイルのほんの少数で効率的です。
これを理解するお手伝いができますか?
あなたの返信ありがとう、ソースは何ですか、それはいくつかの本ですか?同じ資料を参照できるように私に教えてもらえますか? – CuriousMind
TomWhiteのClouderaブログ記事。 [link](http://blog.cloudera.com/blog/2009/02/the-small-files-problem/)を参照してください。 – franklinsijo