2015-11-19 12 views
6

私たちはサーバーを監視するためにRiemannとRiemann-healthを使用しています。しかし、CPUが非常に短時間でピークに達したので、今は非常に多くのCPUクリティカルな警告が表示されます。これは私が思うことについて知る必要はありません。私の理解から、一定の高いCPU使用率は、同様に報告され、より有用な方法と聞こえる負荷平均を増加させるでしょう。Riemannで常にCPUを正常に報告する

私はCPUの報告を無効にしたくないので、すべてのレベルがOKであるとみなされます。可能であれば、Riemannサーバーのイベントを変更したいので、すべてのサーバーを変更する必要はありません。

ここに私たちのリーマンの設定:https://gist.github.com/iGEL/e352764a8c559440c851

+0

リーマンログも投稿できますか? –

答えて

0

私は完全な解決策を持っていないが、理論的には、あなたが使用してwhere機能を経由して、あなたのCPU関連のイベントをフィルタリングし、「OK」を無条件に状態を設定することができるはずですwith次のように一方

(streams 
    (where (service #"cpu") 
     (with :state "ok" index))) 

を高負荷平均はまた、そのa large number of processes are waiting for IOを意味することができるので、負荷の平均に頼ることは良いアイデアではありません。

CPUアラートをサイレントにする代わりに、CPUがX時間単位を超えて状態がokになっていない場合にのみ警告することができます。 応答待ち時間、HTTPステータスコード、エラーレベルなど、クライアントに影響を与える問題を表す上位レベルのメトリックにさらに注意してください。 CPUが高い場合でもシステムに影響がない場合、アラートたぶん騒音でしょう。

関連する問題