私は上記の二つの質問を感知:新しいサービスについて
- は、どのように私は右 エラー/レイテンシー/可用性限界値を選択していますか?
- 正弦波のトラフィックで トラフィックを受信するサービスの場合、低/高トラフィック状況でエラーが発生しないように、私の スレッシュホールドを調整するにはどうすればよいですか?
まず、理想的な状況は、待ち時間と可用性の保証が最初の要件の一部であったことです。サービスがそのために設計されていない場合、既存のシステムをしきい値またはSLAに適応させることは困難です。だから、うまくいけば、それらの数値を要件として(そしてあなたの設計に組み込む)、あるいはシステムを設計する際にいくつかの目標を念頭に置いているかのどちらかです。さもなければあなたのサービスはそれが最善の場合にやっていることよりもうまくいくことはありません。だからそれを選択してください。システムを再構築するオプションがない限り、その場合は正方形に戻ってください。
さまざまなトラフィックパターンをアラートするには、監視とアラートのためにどのツールが利用できるかによって異なります。あなたの会社はすでに専用の監視システムを持っていると述べました。エラーとレイテンシのしきい値を作成しながらルールを定義できるソリューションがあります。これらのツールの高度化に応じて、これらのルールでは、他のメトリック(このサービスがサポートしている主要製品/ウェブサイトへの総トラフィックなど)との相対的なしきい値を定義することさえ可能です。そのようなツーリングが利用できない場合は、難しくなりますが、絶対しきい値ではなく、パーセンタイルメトリックに応じていくつかの活用方法を得ることができます。同様のエラーは0.001%を超えてはなりません。監視システムがそのような計算をサポートしていない場合は、優れたmetrics library written by Coda Haleを調べて、サービス自体のこれらパーセンタイルの一部を特定することができます。