2017-07-06 12 views
1

UPメトリックを使用して、ある時間帯にサービスがダウンした回数(ネットワークの不具合の可能性があります)を判断しようとしています(または1時間あたり)。私は5秒間隔でサンプリングしていますサービスがダウンした回数をPrometheusに問い合わせるには

私が今までに得た最高のものは、サービスがダウンしていたときにだけポイントが付いたシリーズを私に与えるでしょうが、私は次に何をするのか分かりません。

クエリのこのタイプを持つすべてのヘルプは大

おかげでいただければ幸いです。

答えて

0

メトリックの平均を計算してみてください。サービスがダウンすると、平均(1分のスライドウィンドウ)が時間の経過とともに減少します。

ジョブが再び発生し、平均値が0より大きい場合、サービスは1分以上ダウンしていませんでした。

次のクエリ(Prometheus Webコンソール経由で動作)は、サービスが停止する前にサービスが起動するたびに1つのデータポイントを1分以上配信します。

avg_over_time(up{job="jobname"} [1m]) > 0 
AND 
irate(up{job="jobname"} [1m]) > 0 
関連する問題