Google Container EngineクラスタでKubernetesを使用していますが、Stackdriverログに、OutOfMemory例外のためにPodの1つが転倒して自動的に再起動することがわかります。Kubernetes Podsの転倒を監視する方法は?
これらのイベントを監視する標準的な方法はありますか?
私はHeapsterを使用していますが、ポッドのシャットダウンと再起動についてのメトリックは提供されていないようです。
Google Container EngineクラスタでKubernetesを使用していますが、Stackdriverログに、OutOfMemory例外のためにPodの1つが転倒して自動的に再起動することがわかります。Kubernetes Podsの転倒を監視する方法は?
これらのイベントを監視する標準的な方法はありますか?
私はHeapsterを使用していますが、ポッドのシャットダウンと再起動についてのメトリックは提供されていないようです。
ツールは、容器(2)の再起動回数を含むK8Sオブジェクトに関する指標を提供する、(1)kube-state-metrics
と呼ばれるがあります。これらのメトリックはPrometheus(3)によって使用できます。ここでは、再起動回数が指定した数よりも多い場合にアラートを作成できます。
このようにするには、CoreOS(4)のPrometheusオペレータとその設定例(5)が役立つかもしれませんが、最近我々のクラスタに展開したときに非常に役立ちました。この例では、再起動回数の定義済みアラートはありませんが、追加するのは簡単です。
(1)https://github.com/kubernetes/kube-state-metrics
(2)https://github.com/kubernetes/kube-state-metrics/blob/master/Documentation/pod-metrics.md
(3)https://prometheus.io/
(4)https://coreos.com/operators/prometheus/docs/latest/user-guides/getting-started.html
(5)あなたのフィードバックのためのhttps://github.com/coreos/prometheus-operator/tree/master/contrib/kube-prometheus
私たちのIT Sysadminによると、ポッドの障害に関するリアルタイムの監視とアラートに関する現在のソリューションのほとんどは、現在不安定であるか、または非常に弱いです。
メール通知などにSlack.com Webサービスを使用する小さなスクリプトを開発しました。
私の答えは、これが私たちの現在の経験や検索から、実際のフィードバックである
:-)すぐに使用できるワンクリックのソリューションではありません場合、私は申し訳ありません。
私は物事が近い将来そのトピックで動くことを期待しています!
私たちのコード(効果的な結果を得るために簡単な解決策):
おかげで、我々はあまりにも、その後私たち自身のソリューションを構築する必要があるかもしれません。作成したスクリプトはオープンソースですか? – cahen
私たちはあなたのためだけにコードを公開しました!私の答えで編集。 – Fabien
素晴らしい!ありがとうたくさん:D – cahen