2016-11-29 6 views
0

私は社内で内部的に使用される新しいサービスを開発しました。モニターについて次のような質問があります。新しく開発されたサービスのモニタを作成するためのガイドラインやベストプラクティスはありますか?

  • モニターのしきい値を決定するにはどうしたらいいですか(ログファイルのエラー数/ 5分)を教えてください。ピークトラフィックの3%または平均トラフィックの3%ですか?
  • トラフィックが正弦波の形をしている場合はどうなりますか?ピーク時に問題を見逃さないようにするにはどうしたらいいのですが、ピーク時に誤検知がないことを確認してください。

これは少し曖昧な質問であり、ソリューションはサービスによって異なる場合があります。しかし、私は、従うべきベストプラクティスにもっと興味があります。

PS:適切なしきい値でアラームを作成しようとしている監視システムはすでにあります。

答えて

0

私は上記の二つの質問を感知:新しいサービスについて

  1. は、どのように私は右 エラー/レイテンシー/可用性限界値を選択していますか?
  2. 正弦波のトラフィックで トラフィックを受信するサービスの場合、低/高トラフィック状況でエラーが発生しないように、私の スレッシュホールドを調整するにはどうすればよいですか?

まず、理想的な状況は、待ち時間と可用性の保証が最初の要件の一部であったことです。サービスがそのために設計されていない場合、既存のシステムをしきい値またはSLAに適応させることは困難です。だから、うまくいけば、それらの数値を要件として(そしてあなたの設計に組み込む)、あるいはシステムを設計する際にいくつかの目標を念頭に置いているかのどちらかです。さもなければあなたのサービスはそれが最善の場合にやっていることよりもうまくいくことはありません。だからそれを選択してください。システムを再構築するオプションがない限り、その場合は正方形に戻ってください。

さまざまなトラフィックパターンをアラートするには、監視とアラートのためにどのツールが利用できるかによって異なります。あなたの会社はすでに専用の監視システムを持っていると述べました。エラーとレイテンシのしきい値を作成しながらルールを定義できるソリューションがあります。これらのツールの高度化に応じて、これらのルールでは、他のメトリック(このサービスがサポートしている主要製品/ウェブサイトへの総トラフィックなど)との相対的なしきい値を定義することさえ可能です。そのようなツーリングが利用できない場合は、難しくなりますが、絶対しきい値ではなく、パーセンタイルメトリックに応じていくつかの活用方法を得ることができます。同様のエラーは0.001%を超えてはなりません。監視システムがそのような計算をサポートしていない場合は、優れたmetrics library written by Coda Haleを調べて、サービス自体のこれらパーセンタイルの一部を特定することができます。

関連する問題