2017-07-05 17 views
4

昨日Grafanaでアラートを設定し、2つのサーバーアラートから取得しました。それは常に高いIO、高いCPUまたは何かを持っている同じ2つのサーバーです。Grafanaの誤った値が大きいため、偽の警告が発生する

問題は、そのような高いデータがないことです。実際、彼らはほとんどアイドル状態です。すべてのサーバーはAnsibleを介して全く同じように設定されています。したがって、Telegrafの設定はすべてのサーバで同じです。

Grafanaの統計情報を対応するサーバーにフィルタリングしても、グラフに表示されるデータは、下記のスクリーンショットのとおり正確です。それでもルールテストは偽陽性になります。何かが間違っている場合

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- 
r b swpd free buff cache si so bi bo in cs us sy id wa st 
1 0 47100 151152 20948 454556 2 2 16 38 2 1 2 1 96 0 1 
0 0 47100 151136 20948 454592 0 0  0  0 125 135 0 1 96 0 2 
0 0 47100 150408 20956 454584 0 0  0 84 222 282 1 3 93 0 4 
0 0 47100 150424 20956 454592 0 0  0  0 151 225 0 0 97 0 2 
0 0 47100 150424 20956 454592 0 0  0  0 115 140 0 0 96 0 4 
0 0 47100 150424 20956 454592 0 0  0  0 109 125 0 0 97 0 2 
0 0 47100 150424 20956 454592 0 0  0  0 121 131 0 0 98 0 2 
0 0 47100 150412 20972 454576 0 0  0 92 139 208 0 1 96 0 3 
0 0 47100 150456 20972 454592 0 0  0  0 65 117 0 0 99 0 1 
0 0 47100 150876 20972 454592 0 0  0 16 692 705 2 4 88 0 5 

そしてtelegraf.log

Screenshot of Grafana Graph of server with correct data and 'Test Rule' with wrong result

は、私はまた、正しい情報を表示する vmstatをチェックします。

2017-07-07T09:22:04Z I! Starting Telegraf (version 1.3.3) 
2017-07-07T09:22:04Z I! Loaded outputs: influxdb 
2017-07-07T09:22:04Z I! Loaded inputs: inputs.diskio inputs.processes inputs.swap inputs.system inputs.redis inputs.disk inputs.kernel inputs.mem inputs.net inputs.nginx inputs.postgresql inputs.cpu 
2017-07-07T09:22:04Z I! Tags enabled: environment=production host=om-1-prod rails_env=production role=telegraf 
2017-07-07T09:22:04Z I! Agent Config: Interval:10s, Quiet:false, Hostname:"om-1-prod", Flush Interval:10s 

ここに何が間違っていますか?

答えて

0

私は手動でサーバーを監視していましたが、これらの高いピークを短時間見つけました。

ここで問題となるのは、これらのピークがGrafana内の選択された時間範囲内に表示されないことです。それは、より小さい平均値に集約され、40 ipsしかないように見えます。対応する時間範囲にズームすると、これらのピークが表示されます。

ストーリー・ショート:InfluxDBのTelegraf、Grafanaは問題ありません。キーボードと椅子の間に問題がありました。

関連する問題