hadoopを監視するにはgangliaを使用します。私はdatanode(ホストではなくdatanodeサービスを意味する)がダウンしているかどうかを判断するために "dfs.datanode.HeartbeatsAvgTime"というメトリックを選択します。ganglia:hadoopデータノードを停止した後、ganglia remiansのグラフは変更されていません。
データノードが正常に動作している場合、「dfs.datanode.HeartbeatsAvgTime」は変更されたままです。つまり、グラフの値は明白です。
が、私はデータノードのサービスを停止した後、グラフの値は変更しないまま。
2番目のグラフの値が値が0または無限大ではありませんunchanged.Butまま。だから、私はdatanodeサービスがアップまたはダウンしていると判断できません。
他のメトリックを扱う場合も同じです。
「rrdtool fetch」でメトリックデータを保存するために、gangliaが使用するrrdをチェックしました。メトリックの値は* .rrdファイルに保存されます。ファイルをチェックすると、データノードを停止するとメトリックの値も更新されます。しかし、その価値は大胆ではありません。
rrdの公式サイトでrrdの参考文献を読みました。彼らは、rrdが以前に設定された間隔の間に更新日を受け取らなかった場合、rrdは* .rrdfileにUNKNOWNを書き込みます。
問題を引き起こす原因は2つあります。
- gmetadがメトリックを受信しなかった場合。 rrdを古い値で更新します。グラフは古い値と同じままです。
- gmondがメトリックを収集できない場合、古い値をgmetadに報告します。
しかし、私は実際には、gangliaのgithubのソースコード内に何らかのエビデンスが見つかりませんでした。
グラフの値が変更されないという問題を解決する方法を知っていますか?あるいは、あなたは、ハングリアを持つハープクラスターをモニターする方法についての他の詳細を知っていますか?この問題を解決するために、私の闘争の後
@DaveStephens @Lorin Hochstein
@ Lorin Hochstein – Doone