私は過去10日間にHDFSでのディスク使用量が非常に高くなっています。 Cloudera ManagerのHostsタブのDataNodeホストで見られるように、HDFSサービスの使用に関するディスク使用量グラフは〜7TBから〜20TBにほぼ3倍になりました。最初は私がこれがアップグレードで間違っていた理由が、10日の6日にCMとCDHに行ったが、それが以前に起き始めたことが分かったと思っていた。最新のHDFS使用状況の統計情報(フォルダ、ファイル、タイムスタンプ)はどこで確認できますか?
私はCloudera Managerのファイルブラウザを最初にチェックしましたが、その前と以前のサイズの数字に違いは見られませんでした。最後の4日間のディスク使用量レポートもありますが、増えていないと言われています。
hdfs dfsadmin -report
も同じ結果を返します。
Linux上のdfsフォルダは使用量が増えていることを確認していますが、何百万のファイルがあり、何千ものネストされたフォルダの最終変更ファイルをチェックする方法がわからないため何が変更されたのかわかりません。私がそれらを見つけたとしても、私はHDFS上のファイルが何であるかを知ることができません。
最近、私は、HDFS上の別のユーザーが大きなファイルを分割しているという通知を受けました。彼らはすべてのデータのほぼ2/3を所有しています。 HDFSのブロックサイズよりもずっと小さいものに分割すると、この増加の原因になりますか?もしそうなら、私はブラウザ/レポートでそれを見ることができないのですか?
最近チェックしたHDFSやその他の作業で、どのようなフォルダやファイルが修正されているか確認する方法はありますか?任意の提案やコメントをいただければ幸いです。
使用しているCloudera Managerのバージョンはわかりませんが、[Cloudera Navigator Analytics](https://www.cloudera.com/documentation/enterprise/latest/topics/datamgmt_analytics.html)に試してみる?直感的なGUIを使用してHDFSをすばやく分析できます。 –
CMバージョンは5.10.0ですので、私はCloudera Navigatorを持っています。しかし、検索セクションにはファイルに関する情報がないようです。すなわち、先週、月、または年に作成されたファイルについて、文字通り0の結果が見つかりました。監査セクションは良いthoです。たぶん私は間違ったことをしている、私はそれをさらに見ていきます。私はそれが前に実行されていたかどうかはわかりませんが、アップグレード中にNavigatorが起動していることを確認しました。 – burakongun