私はセットアップした新しいHadoopクラスタのログシステムを実装するよう現在作業中です。過去にこれらの設定を見たことがあるのは、個々のファイルを約10倍のHDFSブロックサイズに分割してログを分割することでした。私はそれを使用する必要があるときにこの方法論に何の問題もありませんでしたが、ログを1つの長いファイルに保存したい同僚との議論の後、私が言及した10倍の方法論使われた。私が考えることができる理由は次のとおりです。HDFSで使用される異なるログファイルサイズの根拠となる理由
- mapreduceのジョブは、数日しか興味がない場合にはかなり高速に実行されます。
- ファイルを圧縮して、スペースを節約することができます。
他にもありますか?なぜ10x HDFSブロックサイズのレベルで人が1日にファイルを破るのか、実際には分かりませんでした。私は理論についての私の知識のために、ログがさまざまなサイズで保存されている理由の哲学についてもっと知ることは非常にクールだと考えています。
これは意味があります。ですから、1日にファイルを分割する理由は全くありません。私が過去に行ったことを見てきたことは、ログファイルが720MBなどのサイズで切断されてしまうことです(1日に7GBのログがある場合など)。 720メガバイトの9ファイルと720メガバイトよりわずかに少ない1ファイルとして記録されます)。私は1日に分けて分けることは理解できますが、それよりも小さく分けることはできません。 – Eli